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Kapitel 1 
Einführung 


Was ist Statistik? 
Unter einer Statistik versteht man im allgemeinen Sprachgebrauch eine ge- 
ordnete Zusammenstellung von empirisch erhobenen Daten. Andererseits be- 
zeichnet das Wort Statistik aber auch die mathematischen Verfahren solche 
Daten aufzubereiten. 

Zunächst müssen die Daten aber erst einmal gesammelt werden. Im gün- 
stigsten Fall kann man alle benötigten Daten erheben - etwa bei einer Volks- 
zählung, in der wirklich jeder Bürger erfasst wird. In diesem Fall spricht man 
von einer Vollerhebung. Oft ist es aber zu aufwendig oder gar nicht mög- 
lich wirklich alle Daten zu erheben. Will man z.B. wissen, wieviel Prozent 
aller produzierten Feuerwerkskörper tatsächlich explodieren, macht es wenig 
Sinn, alle zu testen. Wertet man also nur eine Stichprobe aus, spricht man 
von einer Teilerhebung. 

Die beschreibende Statistik befasst sich mit der Auswertung vollständiger 
Datensätze, ist also die Statistik der Vollerhebungen. Es geht dabei nur um 
die Aufbereitung der Daten. In der schließenden Statistik wertet man nur 
Stichproben aus, sie ist also die Statistik der Teilerhebungen. Man versucht 
also von der Stichprobe auf die Gesamtheit zu schließen. Solche Ergebnisse 
haben naturgemäss nur eine gewisse Wahrscheinlichkeit zuzutreffen. 


Das Ziel der Statistik: 
Alle (guten) Statistiken verfolgen ein und dasselbe Ziel: sie sollen ermöglichen 
eine angemessene, qualifizierte Entscheidung zu treffen. Beispiele: 


Statistik Entscheidung 
Bevölkerungsstatistik — Rentenversicherungsbeiträge 
volkswirtschaftliche 8.  — Leitzins, Steuerpolitik 


Unternehmensstatistiken — Investitionen, Produktion, Marketing 


Im Idealfall wird also erst die Statistik erhoben und anhand derer bildet 
man sich eine Meinung. Leider wird dies in der Praxis (insbesondere in der 
Politik) gerne auf den Kopf gestellt: erst ist die Meinung und dann werden 
Statistiken erhoben oder frisiert, die diese Meinung stützen sollen. 


Versucht man bei der Entscheidungsfindung alle Einzeldaten zu berücksichti- 
gen, sieht man leicht den Wald vor lauter Bäumen nicht mehr. Die Datenflut 
muss erst komprimiert werden, wobei zwingend Informationen verloren ge- 
hen (müssen). Die Statistik hat damit zwei konkurrierende Ziele: 


1. möglichst hohe Kompression der Daten, bei 
2. möglichst geringem Informationsverlust. 


Die Statistik hat also die Aufgabe diesen Spagat so gut wie möglich zu mei- 
stern. Und um dies zu tun, muss man genau analysieren, wie viel Information 
verloren ging, bzw. erhalten blieb. An dieser Stelle wird klar, warum die Sta- 
tistik zwingend mathematische Methoden verwenden muss. 


Begriffsbildung: 


Bezeichnung Symbol Bedeutung 
Merkmalsträger t = die Objekte, deren 
= stat. Einheiten Daten betrachtet werden 
statistische Masse 2 = Gesamtheit aller Merkmalsträger 
= die Menge der statistischen Einheiten 
Merkmal E) = die betrachteten Daten 
Ausprägung x — der tatsächliche (Zahlen)wert des 
Merkmals beim Merkmalsträger t 
Merkmalsraum 5 — Bereich aller denkbaren Ausprägungen 


— Menge, die die Ausprägungen enthält 


Wir werden die Merkmalsträger im folgenden stets mit 1, 2 bis n durch- 
nummerieren. Es ist damit also” =1...n und n gibt die Zahl der Merk- 
malsträger an. Wegen t € ist t dann also eine Zahl von 1 bis n. Ist der 
Merkmalsraum endlich, verwenden wir $S = { 51, 52,..., 5m }. Die s; sind also 
die verschiedenen, möglichen Ausprägungen und m ist die Zahl, wieviele es 
davon gibt. Die x; hingegen sind die tatsächlich vorkommenden Ausprägun- 
gen und daher, muss immer x; € $ sein. Man beachte, dass die x; aber nicht 
verschieden sein müssen. 


Beispiel: Zum Abschluss der Vorlesung Statistik schreiben die Studenten 
eine Klausur, die von den Dozenten korrigiert und mit Schulnoten bewertet 
wird. In diesem Fall sind die Merkmalsträger die Studenten, das Merkmal 
ist die Klausurnote und der Merkmalsraum ist die Notenskala von 1 bis 6. 


Beispiel: Der Bekanntheitsgrad der Regierungsmitglieder soll durch eine 
Umfrage unter 2000 Bürgern gemessen werden. Dem Befragten wird der Na- 
me des Politikers genannt, er soll dessen Funktion nennen (z.B. Müntefering 
ist Viezekanzler). Der Bekanntheitsgrad soll der Anteil richtiger Antworten 
sein. Dann sind die Merkmalsträger die Regierungsmitglieder (nicht die Be- 
fragten!), das Merkmal ist der Bekanntheitsgrad und der Merkmalsraum sind 
die Prozentzahlen von 0% bis 100%. 


Systematik: 


Es gibt viele verschiedene Arten von Merkmalen. Grundsätzlich unterschei- 
det man Merkmale erst einmal nach 3 Kriterien: der Erhebungsart, der Ska- 
lierung und der Vergleichbarkeit. Jedes dieser Kriterien hat selbst wieder 
verschiedene mögliche Ausprägungen: 


1. Erhebungsart: Man unterscheidet stacks (Bestandsma/ssen), die zu 
einem bestimmten Zeitpunkt erfasst werden und flows (Bewegungs- 
ma/ssen), die über einen Zeitraum erfasst werden. Beispiele für stacks 
sind das Alter, die Zahl der Mitarbeiter oder Kontostände. Beispiele für 
flows sind die Zahl der Einstellungen oder Unternehmensgründungen 
(in einem gegbenen Zeitraum). 


2. Skalierung: Man unterscheidet diskrete und kontinierliche Merkmale. 
Ein Merkmal heißt diskret, wenn die Ausprägung des Merkmals ist in 
(abzählbar viele) Stufen unterteilt ist. Jede Ausprägung hat also einen 
offensichtlichen Nachfolger. Beipiele sind Jahreszahlen, Handelsklassen 
und Kontostände (in Cent). Ein Merkmal heißt kontinuierlich, wenn die 
Ausprägungen des Merkmals (unendlich viele) Zwischenschritte erlau- 
ben. Beispiele sind Entfernungen, Arbeitszeiten und Umrechnungskur- 
se (z.B. von Dollar in Euro). 


3. Vergleichbarkeit: Man unterscheidet qualitative Merkmale, bei de- 
nen man nur sagen kann ob zwei Ausprägungen gleich oder verschie- 
den sind, und komparative Merkmale, bei denen die Merkmale eine na- 
türliche Ordnung besizen. Beispiele für rein qualitative Merkmale sind 
Farbe, Geschlecht, Name, PLZ oder Beruf. Rein komparative Merkma- 
le sind Handelsklasse, Berufsbildung, Körbchengröße oder Schulnote. 
Sind die Ausprägungen sogar Zahlenwerte (also $S < R) so sprechen 
wir von einem quantitativen Merkmal, z.B. Gewinn oder Kontostand. 
In diesem Fall kann man auch den Abstand zwischen zwei Werten be- 
rechnen. Bei positiven Merkmalen (also $ C R*) gibt es sogar einen 
absoluten Bezugspunkt 0, z.B. bei Gehalt, Preis oder Alter. In diesem 
Fall ist es auch sinnvoll Verhältnisse zu bilden. 


Kapitel 2 





Mengenlehre 


Mathematik ist eine abstrakte Wissenschaft, die sich mit beliebigen Objekten 
unseres Denkens oder unserer Anschauung befasst. Wir gehen naiv davon 
aus, dass man von je 2 Objekten x und y stets entscheiden kann, ob sie 
verschieden sind, oder ob x und y nur zwei verschiedene Namen desselben 
Objekts sind. In letzterem Fall schreiben wir x = y, sonst x # y. Eine Menge 
M ist nun eine Zusammenfassung verschiedener Objekte zu einem neuen 
Objekt. Ist x bei der Zusammenfassung von M mit aufgenommen worden, 
so nennen wir x ein Element von M und schreiben x € M. Die Menge wird 
dadurch bestimmt welche Objekte zu ihr gehören, d.h. zwei Mengen M und 
N sind gleich, wenn sie dieselben Elemente enthalten. Formal: 


M=N — (für alle x gilt: ze M — zeN) 


Wir können uns eine Menge also als Beutel vorstellen. Die Elemente sind die 
Objekte, die in dem Beutel sind. Dieses Bild hat nur 2 Fehler: (1) den Beu- 
tel selbst gibt es gar nicht, es geht nur um das ’wir gehören zu M’ was die 
Elemente verbindet und (2) ein Objekt kann gleichzeitig zu vielen Mengen 
gehören, also in vielen Beuteln liegen. 


Definiton: Es gibt 3 Schreibweisen, wie man eine Menge angeben kann: 
(1) direkt durch Aufzählung der Elemente. D.h. die Menge { x1,2,...,&n } 
besteht genau aus den Objekten xı, x2 bis x. Mehrfachnennungen sind mög- 
lich, die Reihenfolge ist unerheblich. (2) durch Angabe einer definierenden 
Eigenschaft. D.h. die Menge {x | (x) } besteht aus allen Objekten x, die 
die Eigenschaft y(x) erfüllen. Und (3) durch Auswahl aus einer bestehen- 
den Menge M. D.h. die Menge {x € M | (x) } besteht aus allen Elementen 
x von M, die zusätzlich die Eigenschaft g(x) erfüllen. Sindn e N und 
a<beR so schreiben wir zum Beispiel 


| 


!keN|ıl<kundk<n} 
[zreRla<runde<b} 


{el2 #2} 


(a, bl 


Die letzte Menge ® enthält nicht ein einziges Element, sie wird deshalb auch 
als leere Menge bezeichnet. Ist M eine beliebige Menge, dann schreiben 
wir #M für die Zahl der Elemente von M - man beachte, dass #M also 
eine Zahl (aus N) oder unendlich ist. So ist zum Beispiel #(1...n)=n und 
#M = 0 besagt nichts anderes, als M =. 


Mengenalgebra: 


Definiton: Sind nun M und N zwei Mengen, dann definieren wir die Ver- 
einigung M UN als die Menge der x, die mindestens zu einem (M oder N) 
gehören. Der Schnitt MNN ist analog die Menge der x, die zu beiden (M 
und N) gehören und die Differenz N \ M besteht aus den Objekten von 
N, die nicht (auch) zu M gehören. Formal: 


MUN := {x|xzeModexeN} 
MNN = {xz|lzeeMundreN} 
N\M = {xz|lreNunde@M} 


Eine bekannte Darstellung sind die Venn-Diagramme, bei denen jede Menge 
durch einen (eiförmigen) Kreis dargestellt wird. Die Vereinigung M UN ist 
dann die Gesamtfläche, der Schnitt MNN ist der Überlapp und die Differenz 
N\M ist N ohne den Überlapp mit M: 


Venn-Diagramm der Vereinigung MUN 


Anhand dieser Definitionen sieht man dann leicht ein, dass die folgenden de 
Morgan’schen Regeln gelten (zeichnen Sie die jeweiligen Venn-Diagramme): 


M = MN(MUN) 

M = MU(MNN) 
LU(MNN) = (LUM)N(LUN) 
LN(MUN) = (LNM)U(LNN) 


Es kommt häufig vor, dass die vorliegenden Daten strukturiert sind. Man 
kann zum Beispiel die Körpergröße 183 (cm) und das Körpergewicht 78 (kg) 
betrachten. Will man dem Rechnung tragen, dass eine Person diese beiden 
Maße besitzt, so gruppiert man Größe und Gewicht zu einem Datensatz 
(183, 78). Zu jeder Person gehört also Ihr eigener Datensatz. Wir führen diese 
Konstruktion nun allgemein aus: sind xı, &o, bis x, irgendwelche Objekte, 


dann können wir diese zu einer Liste x = (21,X2,...,2%n) (genannt n-Tupel) 
zusammen fassen. Dieses Tupel x ist dann ein neues Objekt. Zwei n-Tupel 
x = (21,22,...,%n) und y = (y1,%2,..-,Yn) Sind genau dann gleich, wenn 


Sie in allen Eintr&en überein stimmen, formal: 








c=y xı = yı und za = ya und ... und &n = Yn 


Definiton: Sind nun Mı und Ma,... bis M„ irgendwelche Mengen, dann 
können wir alle Kombinationen (21,%2,...,2„) von n-Tupeln bilden, wobei 
xı aus Mı stammt, xa aus Ma und so weiter, bis x„ aus M„. Die Menge, die 
aus all diesen Kombinationen besteht, heißt Karthesisches Produkt der 
Mengen Mı, Ma bis und M„ und wir schreiben sie als: 


Mıx Max---x Mn := Hesse. SM; (Gei...n)} 


Beispiel: Als Beispiel betrachten wir die Mengen M = {a,b} und N = 
{1,2,3}. Das Karthesische Produkt dieser Mengen lautet nun explizit: 


1 (a,1), (a,2), (a, 3), (b,1), (6,2), (b,3) } 


An diesem Beispiel wird klar: enthält Mı genau aı Elemente, enthält Ma 
genau aa Elemente und so fort, enthält M,„ genau a, Elemente, dann enthält 
das karthesische Produkt genau aıaa...qa, Elemente. Formal: 


n 


#(Mı x Maxx M,) = ]]#M 


Teilmengen: 


Definiton: Wir nennen M eine Teilmenge von N, falls M in N enthalten 
ist. Genauer, wenn jedes Element x aus M auch in N liegt. Formal also: 


MC<CN (für alle x gilt: ze M — zeN) 


Offenbar ist die Teilmengenrelation eine Halbordnung. D.h. ist Z eine Teil- 
menge von M und M eine Teilmenge von N, dann ist ZL erst recht eine Teil- 
menge von N. Und die Mengen M und N sind genau dann gleich M=N, 
wenn MC Nund N CM sich gegenseitig enthalten. Formal geschrieben: 


LCMwmdM<CN = 4MALC<N 
M<NudNCM — 1M=N 


Das einfachste Beispiel der Teilmengeneigenschaft ist MNN C MC MUN 
für beliebige Mengen M und N. Genauso leicht sieht man die Äquivalenzen 


MEN ..MXN=0 M=MrnN = N=MUN 








Ein weiteres Beispiel für Teilmengen sind die bekannten Zahlenmengen. Die- 
se sind hintereinander geordnet: NC ZCQOCRCC. Wir nutzen die 
Gelegenheit um an die Bedeutung der Zahlenmengen zu erinnern: 








Name Symbol Beispiele allgemein 
Natürliche Zahlen N 0,4,17,... 0,1,2,3,... 
Ganze Zahlen v2 —4,0,17,... a—-b,mita,beN 
Rationale Zahlen (iR) 2, 3, 2, BEN „,mitabeZ,b#0 
Reelle Zahlen R V2,T,e,... Dezimalbruche 
Komplexe Zahlen C 1+3,07 -2i,... a+tibmita,beR 


Definiton: Es kommt gelegentlich vor, dass man alle Teilmengen einer Men- 
ge M betrachten möchte. Dann braucht man die Menge aller Teilmengen von 
M und diese wird Potenzmenge von M genannt: 


P(M) = {A|ACM} 


Offensichtlich ist jede Menge in sich selbst enthalten M C M, also ist immer 
M e P(M). Und da ® gar keine Elemente enthält, gilt auch ® < M also 
De P(M). Ist M = so sind das auch schon alle Teilmengen, und damit gilt 
P(ß) = {D}. Allgemein gilt: besitzt die Menge M genau n Elemente, dann 
besitzt die Potenzmenge 2” Elemente, formal: #P(M) = 2%M, Wir führen 
das einmal an dem Beispiel der Menge M = {2,3,5 } aus: 


P(M) = 10,12},13},15},12,3},12,5},13,5},M} 


Definiton: Hat man eine äussere Menge M fixiert und ist A C M eine 
Teilmenge, so definert man das Komplement A von A als den Teil von M, 
der nicht schon in A enthalten ist. Formal also: 


A := M\A 


Sind nın A und B C M beliebige Teilmengen von M, so sieht man (am 
einfachsten wieder mit Venn-Diagrammen) die folgenden Eigenschaften des 
Komplements ein (die ebenfalls zu den de Morgan’schen Regeln gehören): 





ANA = © 
AUA = M 
AUB = AnB 





ANB = AuB 


Kapitel 3 
Summen und Produkte 


Definiton: Sind xı, x2 bis x„ € R beliebige (reelle) Zahlen, dann definiert 
man die folgenden Schreibweisen (genannt Summe bzw. Produkt der x;.): 


n 
»28: = 1+72+° 4% 
k=1 


= 


Ik °= T1'%2°...'%r 


k=1 


Satz: Man bemerke, dass die rechte Seite des Ausdrucks ohne Klammern 
auskommt, da das Ergebnis immer gleich sein wird, egal wie die Klammern 
gesetzt würden (Assoziativität). Die üblichen Rechenregeln (Kommutativität 
und Distributivität) ergeben dann eine Liste von unmittelbar einsichtigen 
Rechenregeln für Summen (und analog für Produkte) 


n n 
> aXck = a) Tr 
k=1 k—1 
n n 
) It ) Yk 
kl k=1 
n 
) TIk—1 
kl 
n+1 n 
) Cr ) kt Int 
k=1 k=1 
m n m n 
) % ) Y; — ) ) Liyj 
J-l 


i=1 i=1 je 


n 


Ya + YR) 
k=1 
n—1 
2° 
k=0 
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Und die bekannten Rechenregeln für die Exponential- und Logarithmusfunk- 
tion drücken sich damit wie folgt aus: 


e (I) + Tess 
k=1 k=1 

In fl .) — > ln(ar) 
k=il k=1 


Oft ist x, eine einfache Funktion von k, z.B. x; = k oder x; = k?. In 
diesen Fällen ist die Summenschreibweise besonders hilfreich. Wir möchten 
ein einfaches Beispiel für diese Situation (in einer Doppelsumme) anfügen: 
4 4 4 4 

(+) = DA+HN+ILAHNIEH 
= zei 


i=1 j=1 j=l 





I= 3-1 
= 2 +3+4+45)+(3+4+5+6)+(4+5+6+7)=54 


Satz: Schließlich geben wir noch ein paar Formeln für spezielle Summen 
an: unter anderem ergibt die Summe der ersten n Zahlen (n + 1)n/2, die 
Summe der ersten n ungeraden Zahlen ergibt n? und die Summe der ersten 
n Quadratzahlen ergibt (2n + 1)(n + 1)n/6: 


w& 


1 


na 


y.k = n(n+1) 


k= 
n 
k=1 





k=1 
n n+l 
q —1 
De - Di 
k=0 47 
E 2 o_ (2n+1l)(n+1)n 
k=1 6 


11 


Kapitel 4 
Prozentrechnung 


Wenn wir von einem Wachstum um 100% sprechen, meinen wir dass sich 
der betrachtete Betrag verdoppelt hat. Und legen wir 1000 Euro bei einem 
Zinssatz von 10% (pro Jahr) an, so haben wir nach einem Jahr einen Kon- 
tostand von 1100 Euro. Ein Prozentwert soll also ein Verhältnis zwischen 
dem Anfangs- und dem Endwert ausdrücken. Und die Rechenvorschrift sieht 
dabei folgendermaßen aus: 


Zi t 
Wachstumsfaktor = 1+ u. 
Endwert = Wachstumsfaktor - Anfangswert 


Etwas formaler: im folgenden bezeichnen wir den Anfangswert mit x, den 
Endwert mit x’. Bezeichnen wir weiterhin den Zinssatz mit z, dann ist der 
Wachstumsfaktor gegeben, durch q = 1+ z/100. Und der Endwert ist dann 
x = q«. Irreführender Weise wird ein prozentuales Wachstum in der wirt- 
schaftlichen Praxis aber additiv geschrieben, man meint dabei 


z 
= —) 
4% = (lrm)® 
Daran sieht man: ob ein Betrag erst um w% und danach um 2% wächst, 
oder umgekehrt, erst um 2% und danach um w%, macht keinen Unterschied 
(denn die Multiplikation ist kommutativ). Formal heißt das 
(e+wA%)+2% = (E+2%)+w% 
Aber Vorsicht: legen wir die 1000 erst bei 5% und danach mit 10% an, so 
ernten wir am Ende den Betrag 1,05-1,1-1000 = 1150. Das entspricht einem 


Zinssatz von 15,5% und eben nicht 5 + 10 = 15 Prozent. Es ist also 


(e+w%)+2% #Z zs+(w+2z)% 
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Wie bestimmt man eigentlich den Zinssatz? Löst man die Gleichungen x’ = 
qxz nach q und q = 1+ z/100 nach z auf, so findet man q = x’/x und 
z = 100(q - 1), also 





E 
Wachstumsfaktor = ndwert 
Anfangswert 
Zinssatz = 100 (Wachstumsfaktor — 1) 


Problem 1: Der Anfangsbetrag x € R wird mit dem Zinssatz z € R verzinst. 
Wie groß ist der Endbetrag x’ nach n € N Zinsperioden? Klar: 


f zZ n 
= 1 —) 
R ( 700) * 


Problem 2: Wir verzinsen 1000 Euro 2 Jahre lang mit 10%. Welchen monat- 
lichen Zinssatz müsste man nehmen, um denselben Endbetrag (1210 Euro) zu 
erreichen? Die Lösung finden wir aus der Gleichung 1000: (1,1)? = 1000: q°* 
zu q = 1,0079... also etwa z = 0,8%. Allgemeiner lautet das Problem: 
wir verzinsen « über m Perioden mit dem Zinssatz w. Welchen Zinssatz z 
muss man wählen, um denselben Endbetrag in n Perioden zu erreichen? Die 
Lösung erhält man wieder durch Auflösen der Gleichung x(1+ w/100)” = 
x(1+ z/100)” nach z zu 


w zu 
= 100- (\ —_)" —1 
2 00 ( “tr 100 ) 


Problem 3: Zu Beginn jeder Periode wird der Betrag x € R auf ein Konto 
eingezahlt und (am Ende der Periode) wird alles mit dem Zinssatz ze R 
verzinst. Wie hoch ist der Endbetrag nach n € IN Perioden? Nach einer 
Periode ist « einmal verzinst worden und « wurde ein weiteres Mal eingezahlt, 
also x’ = qx +x2= (q+1)x. Nach der zweiten Periode wurde dieser Betrag 
wieder verzinst und ein weiteres Mal wurde x eingezahlt, also x’ = q(qx + 
z)+x = (Q +gqg+1)x. So geht das immer fort, bis nach n Perioden x’ = 
(+ q®71 +... +q+1)x ist. Nach den Summenformeln aus Kapitel 3 also 
{ gr+l —]1 
£ 
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Kontinuierliche Verzinsung: 


Beispiel: Wir legen 1000 Euro bei einem jählichen Zinssatz von 4% an. Nach 
3 Jahren und 3 Monaten (also 3,25 Jahren) wollen wir unser Konto wieder 
auflösen. Wieviel Geld liegt jetzt auf dem Konto? In der Finanzwirtschaft 
geht man nun folgender Maßen vor: zunächst berechnet man die Verzinsung 
für die 3 ganzen Jahre, also (1,04)? - 1000 = 1124,86 Euro. Dieser Betrag 
lag ja noch ein viertel Jahr bei 4% pro Jahr auf dem Konto. Dann wird der 
Einfachheit halber einfach noch ein Viertel der jährlichen Verzinsung genom- 
men, also x’ = (1+ 0,25 : 0,04) - 1124,86 = 1113,73. Bei der sogenannten 
kaufmännischen Verzinsung wird die Zeitspanne t also aufgeteilt int=n+r, 
wobei n € Z ganzzahlig und r der Rest O<r <1 ist. Es bezeichne wieder 
q=1+ z/100 undp=q-1= z/100. Dann ist der Endbetrag, also 


’ _ gi = (1 re) 
x q(l+rp)& too 100)? 





Aber eigentlich macht man da einen Fehler: wegen der Zinseszins-Effekte 
wächst der Betrag am Ende ja schneller als am Anfang. Die Änderung des 
Betrages ist ja proportional zum bisher bestehenden Betrag (je mehr Geld 
auf dem Konto ist, desto mehr wird auch verzinst). Legt man 1000 Eu- 
ro ein Jahr lang bei 100% an erhält man bei jählicher Verzinsung 2000 
Euro zurück. Hätte man stattdessen das Geld jede Woche abgehoben und 
gleich wieder angelegt, hätte man (bei kaufmännischer Verzinsung) einen 
Zinssatz von (100/52)% = 1,92% erhalten und aus den 1000 Euro wä- 
ren satte 1,0192°? . 1000 = 26130 Euro geworden. Macht man die Dau- 
er einer Zinsperiode immer kürzer nähert sich dieser Betrag immer weiter 
1000e = 27182,81... Euro. Es ist unbefriedigend, dass der Endbetrag ge- 
steigert werden kann, wenn man die Zinsperiode verkürzt. 


Wir wollen diesen Makel der kaufmännischen Verzinsung also bereinigen. 
Die Idee ist die Dauer einer Zinsperiode schon im Vorfeld rechnerisch immer 
weiter zu verkleinern. Also statt 100% jährlich, lieber 50% halbjährlich, oder 
noch besser 25% vierteljährlich und so weiter. Betrachten wir was dabei 
heraus kommt, wenn man die Schritte immer weiter verfeinert: 


c n 
e(2) := lim (1+2) 
n—X n 
1 1 1 
— 1 22202? 4 lee 
Zee Waren 





Diese Funktion nennt man Erponentialfunktion. Anhand der Darstellung als 
unendlich lange Summe sieht man, dass e’(x) = e(x) ist. Bei Ihr ist die Än- 
derung also immer gleich dem gegenwärtigen Betrag. Die Zahl e := e(l) = 
2,7182... ist eine der wichtigen mathematischen Konstanten, ähnlich wie 
m = 3,1415.... Durch die Eigenschaft eine Summe in ein Produkt zu ver- 
wandeln e(x +y) = e(x)e(y) ergibt sich, dass e(k) = e* (für k € Z) ist. 
Deswegen schreibt man auch e” := e(x) für x € R. Mit Hilfe dieser Funktion 
lässt sich die kaufmännische Verzinsung dann verbessern, zur kontinuierli- 
chen Verzinsung: 
X = ga = RW 
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Dabei ist In der (natürliche) Logarithmus, die Umkehrfunktion der e-Funktion. 
Diese kann man mit (für -1<x< 1) Hilfe einer anderen, unendlichen Sum- 
me berechnen 


2 3 


n 


n 


Setzt man diese beiden Reihen in kontinuierliche Verzinsung x’ = g’x ein, 
sieht man, dass die kaufmännische Verzinsung einfach die lineare Approxi- 
mation der kontinuierlichen Verzinsung ist: 


ie edge a" (I+r(p+)+-)2 = q’(l1+rp)& 
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Problem 4: Der Betrag x € R wird zum Zinssatz z € R angelegt. Wie lange 
muss x (kontinuerlich) verzinst werden, um den Betrag x’ € R zu erreichen? 
Dazu müssen wir die Gleichung x’ = q'xz nach t auflösen: In(x’) = In(q!x) = 
t-In(g) + In(x), also 
In(x’) - In(«) 

In(q) 


Bemerkung: Dasselbe Problem ist im Falle der kaufmännischen Verzinsung 
leider nicht exakt lösbar. Sei wieder p = z/100 und wir suchen den Zinssatz 
z, dann muss man die folgende Gleichung (numerisch, z.B. durch Intervall- 
halbierung) nach p lösen 


t = 


/ 


(I+p"(I+rp) = — 
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Kapitel 5 
Vektoralgebra 


Wie üblich bezeichnet R die Menge der reellen Zahlen [rein algebraisch ge- 
sehen, könnte die folgende Konstruktion mit einem beliebigen kommutati- 
ven Ring R ausgeführt werden]. Die Menge R” besteht dann aus Listen 
x = (21,%2,...,2n) von n reellen Zahlen xı, za bis «n € R. Eine solche 
Liste heißt auch Vektor. Wir verabreden, dass die Liste x € IR” immer die 
Einträge (Komponenten) x; € R hat. Analog besteht y e R” immer aus 
den Komponenten yı, d.h. y = (yı, Ya, . , Yn)- Zwei Vektoren x, y € R” sind 
gleich, wenn sie in allen Komponenten überein stimmen, formal: 








c=y xı = yı und za = ya und ... und &n = Yn 


Wir interpretieren eine Zahl a € R immer auch gleich als Vektor, indem wir 
einfach jede Komponente des Vektors als a nehmen. D.h. wir identifizieren 


aeR = (a,a,...,a)eR” 


Definiton: Nun definieren wir drei verschiedene Rechenoperationen auf R”: 
seien also wieder x, y € IR” zwei Vektoren. Dann erklären wir die Vek- 
toraddition z + y € R”, die Vektormultiplikation xy € R” und das 
Skalarprodukt (z | y) € R durch 


Eee erden in Ye) 
2. = (N rin) 
(z|y) := zıyı +raya +: + nYn 


Man beachte, dass aufgrund der Einbettung a = (a,a,...,a) und der Vektor- 
multiplikation xy auch gleich die Skalarmultiplikation ax definiert wurde: 


a2: >= (01,005,:2,0) 
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Vom abstrakten Standpunkt gesehen wird R” damit zu einer R-Algebra, also 
insbesondere zu einem R-Vektorraum. Anschaulich, geometrisch ist ein Vek- 
tor € = (21,29,...,%n) aber einfach ein Punkt im n-dimensionalen Raum. 
Zum Beispiel ist (1,2) ein Punkt in der Ebene und (x1,x2,x2) ein Punkt 
im Raum. Der Abstand der Punkte x und y ist nach Pythagoras da(x, y) 
(s. unten). Es gibt aber noch weitere Definitionen, die einen sinnvollen Ab- 
standsbegriff liefern, unter anderem: 


dı(la,y) := > x = yı| 
t=1 





n 


da(z,y) := IE: — 4)? 
t=1 
doo(z, y) = max{ |xı - yıl,.- - ‚|&n — Yn| } 


Natürlich liefern die verschiedenen Abstandsbegriffe auch verschiedene Zah- 
lenwerte. Es gibt aber ein paar wichtige Abschätzungen, die allgemein gelten: 


7 le Ss des, Y) > dı(z,y) > vndz(x, y) 


Wir werden im nächsten Kapitel auch den Durchschnitt A(x) der Zahlen 
x, &2 bis x, einführen. Dieser wird definiert werden, als: 


1 

Alz) := „zı +22 +: 4%) 

Satz: Man beachte, dass der Durchschnitt eines Vektorprodukts xy und das 
Skalarprodukt zweier Vektoren x und y eng verwandt sind. So werden wir 


die folgenden Identitäten häufig benutzen: 


1x 1 
Alay) = zum = —(wly) 
t=1 


n 


DR 1 
Ale?) = IM „«|» 
t=1 


Besonders hilfreich ist diese Notation, wenn wir den Vektor t= (1,2,...,n) 
einführen. Dies ist zwar formal nicht ganz korrekt, da t ja auch der Index 
(von 1 bis n) sein soll, führt aber zu der suggestiven Schreibweise: 


1 n 
Alty) = 2 tu 
t=1 
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Kapitel 6 





Eindimensionale Verteilungen 


Wir betrachten n Merkmalsträger, durchnummeriert mit den Zahlen 1, 2,... 
bis n. Da wir nur ein einziges Merkmal x betrachten, gehört zu jedem Merk- 
malsträger t nur eine Ausprägung xt. Die Menge aller möglichen Ausprägun- 
gen bezeichnen wir mit $. Wir haben es bei dem Merkmal x also mit einer 
Zuordnung zu tun, der Form: 


2: 1.2n48:tH% 


Zumeist gibt es nur endlich viele verschiedene Ausprägungen 51, 82,...,Sm 
des Merkmals x, dann ist also $ = {sı,82,...,5m }. Gelegentlich kommt 
aber auch $ = N (diskret, positiv, z.B. Umsätze in Cent), $ = Z (diskret, 
z.B. Kontostände in Cent), $ = R* (kontinuierlich, positiv, z.B. Wechselkur- 
se) oder sogar $ = R (kontinuierlich, z.B. Zeitunterschiede) vor. Zus = s; 
bezeichnen wir nun die absolute Häufigkeit, mit der s; unter den x; vor- 
kommt mit n;. Die relative Häufigkeit bezeichnen wir mit h;, formal lautet 
dies VE 1l...m) 


ee Heli) 
hi, = m 
n 


Kann man die s; vergleichen (komparatives Merkmal, z.B. Handelsklassen) 
geht man immer von einer aufsteigenden Sortierung sı < sa < :-- < sm der 
möglichen Auspr&ungen aus. Dann kann man auch die kumulierten, absoluten 
bzw. relativen Häufigkeiten einführen (k € 1...m): 


k 
N, := m = NAHEN 
i=1 
N. k 
H, = = = hi = Haıtle 
i=1 
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Der Vollständigkeit halber setzt man daher auch No := 0 und Abo := 0. Ist 
5 < R (quantitatives Merkmal, z.B. Kontostände), kann man die Ausprä- 
gungen auch selbst addieren, um die Größe des Bestandes auszuwerten, man 
bezeichnet (ik € 1...m): 


X; 


NniSi 

n m m 

) u = ) nis = ) X; 
1 = il 


Dabei heißt X; die absolute Merkmalssumme von s;, während der Gesamtbe- 
trag X auch totale Merkmalssumme heißt. Der Durchschnitt (genauer gesagt, 
das arithmetische Mittel) ist bekanntlich der Gesamtbetrag pro Person, also 


X 


Für die Konzentrationsanalyse betrachtet man schließlich die noch Anteile 
am Gesamtbetrag, man nennt dies die relative Merkmalssumme £; bzw. die 
kumulierte, relative Merkmalssumme Lx (i,k € 1... m, wieder setzt man der 
Vollständigkeit halber Lo := 0): 





Mi 2 X; = his; 
nz IK A(x) 
k 
IL, = 6 = I.-ı t+% 
i=1 
Lagemaße: 
Die Statistik ist daran interessiert eine Flut von Daten r1,23,...,2n zu 


komprimieren. Und als erstes will man so etwas wie den typischen Vertreter 
der x; haben. Dieser typische Vertreter soll die Größe der x; wiedergeben. 
Da er also sagt, wo die Daten liegen, spricht man auch von einem Lagemaß. 
Die einfachste Möglichkeit ist es, den Wert zu nehmen, der unter den x; am 
häufigsten vorkommt. Diesen nennt man den Modus (oder auch dichtester 
Wert) D(x): 


D(x) = s, sodass n,=max{n; |iel...m} 
Bei einem komparativen Merkmal x sortiert man die x; aufsteigend der Größe 
nach: xı < z2 < --- < zn. Der Wert, der dann in der Mitte steht, heißt 


Median (oder auch Zentralwert) Z(x): 


für n gerade 


n 
Zu le { "fürn ungerade 
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In einem Balkendiagramm stellt man die Häufigkeiten graphisch dar, in- 
dem man die Balken unter die Punkte (s; | h;) einzeichnet. Der Modus ist 
also dasjenige s, mit dem höchsten Balken. Der Median hingegen ist der 
Wert s;, an dem die Stufenfunktion zu den Punkten (s; | H;) erstmals den 
Wert 1/2 erreicht bzw. überschreitet. 





Balkendiagramm mit m=5,k=3, 
hı —_ 0.15, ha = 0, ha —_ 0.4, ha = 0.25 und hs (2 





kumuliertes Balkendiagramm für dieselben Werten 
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So wie der Median derjenige Wert ist, der den Übergang von der unteren zur 
oberen Hälfte markiert, kann man natürlich andere Trennlinien betrachten: 
das erste Quartil Qı(x) markiert die Grenze zwischen dem unteren Vier- 
tel und den oberen drei Vierteln. Und das dritte Quartil Q3(x) markiert 
umgekehrt die Grenze zwischenden unteren drei Vierteln und dem oberen 
Viertel. Das zweite Quartil ist genau der Median Qa(x) = Z(x). Formal sind 
die Quartile also folgenderma/ssen zu definieren: 


Q;l&) := sk wobei Hi-ı<S<Hs 


Das bekannteste Lagemaß ist sicherlich das arithmetische Mittel (oder 
auch Durchschnitt) A(x). Es ist die Gesamtsumme X pro Person, kann also 
nur bei quantitativen Merkmalen x gebildet werden: 


Al) = 23 = 2x = msi 


Anhand dieser Definition rechnet man leicht nach, dass das arithmetische 
Mittel eine Reihe nützlicher Eigenschaften erfüllt (ae R,xzundyeR”): 


Ala) = a 
Alax) = aA(k«) 
Aa+y) = Aka) + Ay) 


Bemerkung: Der Zentralwert und der Durchschnitt haben eine strukturelle 
Gemeinsamkeit: beide entstehen durch Projektion des Datenpunktes x auf 
die Diagonale. Genauer: wir wollen die n Zahlen xı bis x„ durch eine Zahl a 
ersetzen. Fasst man x = (21,29,...,2n) € R” als Punkt im n-dimensionalen 
Raum auf, so sucht man das «a, so dass der Punkt a = (a,a,...,a) € R” 
möglichst dicht bei x liegt. Nun kann man den Abstand zwischen 2 Punkten 
x und y im R” aber auf verschiedene Weisen messen, unter anderem mit: 


n 


dı(a,y) = er 2: < yel 


t=1 


de(z,y) = 





Entsprechend entstehen zwei verschiedene Punkte, je nach der Art des Ab- 
stands, den man minimiert. Minimiert man dı (x, «), so erhält man a = Z(r), 
minimiert man do(z,«), so erhält man a = A(r). 
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Lageregeln: 


Eine einfache grafische Darstellung der Verteilung der Werte x; bieten die 
sogenannten Box-Diagramme. Wie üblich sortieren wir die Werte x; auf- 
steigend der Größe nach: x; < x2 < --- < z„.. Dann nimmt man den Ma- 
ximalwert x, und den Minimalwert xı als äussere Begrenzung. Dazwischen 
trägt man (die Abstände in passendem Verhältnis) das erste und dritte Quar- 
til und den Zentralwert Z(x) = Qa(x) ein: 


E 
an II FE % 
S E 
=# = 
5 z 
Z&) 2 z 
Do De 
Pe PFAHEEERRABENEHGHERE 


Je nachdem ob die Werte x; häufiger im kleineren oder im größerem Bereich 
liegen spricht man von einer links- bzw. rechststeilen Verteilung. Das Box- 
Diagramm hat in diesen Fällen eine charakteristische Form: 


h linkssteile Verteilung rechtssteile Verteilung 
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Anhand des Box-Diagrammes in obiger Grafik sieht man sofort, das solche 
Verteilungen x; eine besondere Anordnung der Mittelwerte nach sich ziehen. 
Man spricht von Lageregeln, die also zur Definition genommen werden, um 
zu entscheiden ob eine Verteilung links- oder rechts-steil ist: 


linkststeil, wenn rechtssteil, wenn 
D(2)<Z(e)<sAla)  Ala)< Zee) < Die) 


< Qı() + Q3(x) Qı() + Qs3(z) & Z(«) 


2 3 2 





Streuungsmaße: 


Definition: Nachdem man sich für einen typischen Wert (ein Lagemaß) 
entschieden hat, fragt man sich natürlich, wie gut dieses die x; wieder gibt. 
Anders gesagt: man möchte wissen, wie dicht oder wie weit die x; um das 
Lagemaß verstreut sind. Das zugehörige Streuungsmaß soll eben dies leisten. 
Die einfachste Möglichkeit dies zu tun ist es den Quartilabstand Q zu 
betrachten: 


Q := Qsta) - Qıl®) 


Bedenkt man aber, dass Z(x) und A(zx) entstanden sind, indem man den 
zu € = (21,%2,...,%n) nächst gelegenen Punkt a = (a,a,...,a) auf der 
Diagonalen genommen hat, so liegt es nahe eben den Abstand zwischen den 
beiden Punkten x und a als Steuungsmaß zu nehmen. Man definiert da- 
her die mittlere, absolute Abweichung o; (x), die Varianz (= mittlere, 
quadratische Abweichung) 02(x) und die Standardabweichung o3(x): 





oa) = idılmZ@)) = m - 2) 
t=1 

oa) = Aa) - Aa)? = Ya - Ala))? 
t=1 

00) = Ad, Am) = „2 Im - AR)? 
t=1 


Man bemerke, dass oı sich auf Z(x) bezieht, da dieser Wert ja den Abstand 
dı minimiert, wohingegen o2 sich auf A(x) bezieht, da dies da minimiert. 


Ausserdem gilt nach Definition o2(2)? = 02(x). 
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Beispiel: Bei der Ein-Punkt-Verteilung haben wir n mal denselben Wert 
a € R vorliegen. D.h. es ist x; = a für t E 1...n oder als Datenvektor 
geschrieben z =a = (a,a,...,a) € R". In diesem Fall gilt offenbar Z(a) = a 
und A(a) = a. Und die Streuungsmaße ergeben sich damit zu 


oı(z) 


) 
sim 
% 
| 
I 
j) 
oO 


gar) = 





Beispiel: Bei der Linearen Verteilung haben wir nacheinander die Zahlen 
1, 2, 3 und so weiter bis n gegeben. D.h. es ist x; =t fürtel...n oder als 
Datenvektor geschrieben x =t= (1,2,3,...,n) € R". Ist n = 2k gerade, so 
gilt offenbar Z(t) =n/2 = k und A(t) = (n+1)/2 finden wir für allgemeines 
n. Die Streuungsmaße ergeben sich damit zu 


1 n 

yje=kl = 2 

n 4 
1 


ir +1 n?-1 
— — t— —n 
022) > 2 ) 12 


oı(«) 











Definition: Hat man es mit qualitativen Daten x; zu tun, hat man als 
einziges Lagemaß den Modus zur Verfügung. Will man hier ein Streuungsmaß 
einführen, so muss man sich allein auf die Häufigkeiten stützen. Klar ist: 
kommt nur s; vor (h; = 1), so gibt es überhaupt keine Streuung. Und tritt 
s; nicht auf (h; = 0), so trägt es zumindest nicht zur Streuung bei. Daher 
definiert man die Dispersion P als: 


m 


m m Le 
P-= 7 2, hill< hr) = 1-88) 


i=1 


Die Dispersion nimmt damit Werte von 0 bis 1 an. Einen Wert von 0 bis 0,8 
interpretieren wir als starke Ballung, Werte von 0, 9 bis 1 als starke Streuung. 


Beispiel: Die stärkste Ballung tritt auf, wenn einer alles hat, das bedeutet 
es ist ha = 1 (für eink € 1...m) und h; = 0 für i Z k. Dann ist stets 
h;(1-h,) =0 (für alleöe1...m) und damit auch P = 0. Bei einer völligen 
Gleichverteilung h; = 1/m (für i € 1...m) erhalten wir hingegen 


1 
Pa, oe = 
m-1 m? 
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Definition: Bei komparativen Daten x; kann man immerhin noch verglei- 
chen. Man folgt also derselben Idee wie bei der Dispersion, verwendet aber 
die kumulierten Häufigkeiten AH; anstelle der h,. Dies führt auf die Diversi- 
tät D, die man definiert, als: 


m 


i=1 
Dabei erhält man wieder Werte von O bis 1, wobei wir Werte von 0 bis 0,6 
als starke Ballung, Werte von 0,8 bis 1 als starke Streuung interpretieren. 


Beispiel: Bei der Ein-Punkt-Verteilung gibt es wieder ein k € 1...m mit 
hr; = 1 und entsprechend Ah, = 0 für <# k. Für die kumulierten Häufigkeiten 
gilt damit Hı = 0,..., Hx_ı = 0,Hr =1,...,Hm = 1. Und damit H;(1 - 
H;) = 0 für allei € 1...m, mithin D = 0. Die größte Streuung erhält man 
hingegen bei der Randverteilung: es kommen nur die beiden äussersten Werte 
(gleich häufig) vor. Formal bedeutet das hı = 1/2 und hm = 1/2. und damit 
Hı =1/2,..., Hm-ı = 1/2, Hm = 1. Die Diversität wird damit zu 





a — _ ((m D4+0) = +1 


m-—|1 


Konzentrationsanalyse: 


Satz: Betrachten wir wieder quantitative, positive Daten x; € Rt. Wir 
können bereits beschreiben, wo die Daten liegen und wie weit sie verstreut 
sind. Nun wollen wir noch ein Maß dafür haben, wie ungleich (ungerecht) die 
Verteilung ist. Zunächst beobachtet man, dass (sofern sı < s2 << Sm) 
für allek €el...m gilt: 


ER 


Definition: Man beachte, dass Lo = 0 = Ho und Im = 1= H,„ Sind. Wenn 
wir diese Punkte (H, | L,) also mit Geradenstücken verbinden, so hängt die 
Kurve unter der Diagonalen durch. Diese stückweise lineare Funktion mit den 
Knickstellen (H, | Lx) nennen wir Lorenz-Kurve der Verteilung. Es bietet 
sich an, die durchhängende Fläche der Kurve, als Maß für die Ungleichheit 
in der Verteilung zu nehmen: 


1 
Be 2 / H- L(H)dH 
0 


=. = > k(L-ı+L;) 


1 

ir n+1 

ae, 2.0 
i=1 


Wir nennen R den Gini - Koeffizienten der Verteilung. Er nimmt Werte 
von 0 bis 1 an, wobei wir Werte von 0 bis 0, 25 als gute Gleichverteilung und 
Werte von 0,4 bis 1 als starke Ungleichverteilung interpretieren. 
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Beispiel: Angenommen in Deutschland gäbe es 10 Haushalte und das Ge- 
samtvermögen der Haushalte sei auf 100 Einheiten normiert. Dann sähe die 
Vermögensverteilung in Deutschland etwa folgendermaßen aus: 


O<O<I<I<S2<I<I<IS<21<AT 





Wir haben also n = 10, m = 8 und die Zahlenpaare (H,, | L;) betragen hin- 
tereinander weg: (0.2 | 0), (0.4 | 0.02), (0.5 | 0.04), (0.6 | 0.08), (0.7 | 0.17), 
(0.8 | 0.32), (0.9 | 0.53) und (1,1). Der Gini-Koeffizient berechnet sich damit 
zu R = 0.67 und obwohl dieser Wert damit eine sehr starke Ungleichvertei- 
lung anzeigt, gehört Deutschland damit zu den eher gemässigten Nationen. 
Die Lorenz-Kurve illustriert die Ungleichverteilung am eindrucksvollsten: 











| | | | | | 
0 01 02 03 04 05 06 07 08 09 1 


Lorenz-Kurve (unten) der Vermögensverteilung in Deutschland, 
die Fläche zwischen den Kurven ist der halbe Gini-Koeffizient R 


Beispiel: Bei einer Gleichverteilung besitzt jeder gleich viel, d.h. es ist 
21 =%2 =:''= In = a konstant. Es kommt also überhaupt nur ein Wert 
sı =a vor und damit sind m=1, H}h =1 und Lı = 1. Entsprechend ist die 
Lorenz-Kurve L(H) = H die Diagonale und mithin R=0. 








Beispiel: Die schärfste Ungleichverteilung liegt vor, wenn einer alles hat. 
D.h. es sind xı = 2x2 =: = n-ı = 0 und mn = a. Es gibt also zwei ver- 
schiedene Werte sı = 0 und sa = a mit den absoluten Häufigkeiten nı =n-—1 
und na = 1. Wir finden also die Punkte (Hı | Li) = ((n - 1)/n | 0) und 
(Ha | Lo) = (1,1). Der Gini-Koeffizient kann damit über die Dreiecksfläche 
berechnet werden, nach (1 —- R)/2 = 1/2: 1/n und damit R = 1- 1/n. 
Man kann R also beliebig dicht an 1 rutschen lassen, indem man in dieser 
Verteilung die Zahl n der Personen erhöht. 
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Verzerrte Durchschnitte: 


Es bezeichne x; den Kurs einer bestimmten Aktie im Monat t. In einem 
Ansparmodell werde monatlich der Betrag a in diese Aktie investiert. Die 
Zahl der im Monat t gekauften Aktien beträgt also a/xı. Und insgesamt 
wurden in den Monaten 1 bis n also a/zı +a/22 +:::+.a/xn viele Aktien 
gekauft. Der durchschnittliche Einkaufspreis 7 pro Aktie beträgt bei dieser 
Investitionsform also 


investiertes Geld na n 


gekaufte Aktien Din u Bar 








Durch diese Betrachtung inspiriert definieren wir das harmonische Mittel 
n 1 


Bin: a, 


Man beachte das das harmonische Mittel also der Kehrwert des arithmeti- 
schen Mittels der Kehrwerte ist. In Formeln ist dies viel einfacher: 





Hla)es= 


1 1 ed 


1 "* 





Sei nun a ein anfänglich investierter Betrag, der im Jahr t mit dem Zins- 
satz z; verzinst wird. D.h. im Jahr t wächst der Kontostand mit dem Faktor 
x := 1+4+2:/100. Nach einem Jahr ist der Kontostand also axı, nach 2 Jahren 
aXıXa und so weiter, nach n Jahren eben xıX2... na. Wir fragen uns nun 
welchem durchschnittlichen Zinssatz z dies entspricht. Für den durchschnitt- 
lichen Wachstumsfaktor 7 gilt offenbar 


Ta = zı02...m4 — Ts= (21:25.%,) 


Sl- 


Der durchschnittliche Zinssatz z lässt sich aus X auch wieder leicht berechnen, 
als z= 100(7—- 1). Und durch diese Betrachtung inspiriert definieren wir das 
geometrische Mittel 


Gi) := (1-) = (ir) 


Analog zum harmonischen Mittel (das ein mit 2 > 1/x verzerrtes arithme- 
tisches Mittel ist), ist das geometrische Mittel daher mit dem Logarithmus 
verzerrt worden. Indem man x!/” = exp(In(x)/n) verwendet führt eine kurze 
Rechnung auf: 


In(G(x)) = "Yinlan) = ),hiln(s;) 
t=1 i=1 
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Kapitel 7 





Klassierte Verteilungen 


Hat man es mit grossen Datenmengen zu tun, kommen oft unsinnig viele 
Ausprägungen vor. Unterscheiden sich etwa zwei Kontostände nur um 4 Cent, 
so möchte man diese beiden wie einen Kontostand behandeln. Deswegen 
klassiert man S in diesen Fällen. D.h. man zerlegt Sin Teilmengen $; < $ 
(mit ve 1...m), formal bedeutet das 


(1) S$=S1 U 52 U--- US, und 
(2) NS; =Nfürifj 





Der Vorteil ist, dass dadurch die Datenmenge übersichtlicher wird. Dies er- 
kauft man sich aber um den Preis, dass man das Wissen über die Verteilung 
innerhalb der Klassen S; verliert. 
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Im Normalfall ist $ = [a, b| ein Intervall, das zerlegt wird in S; = [a;-ı,a;| 
wobeiia=a <aı <aa <--- < am = b. Erhoben wird dann die Zahl n; 
der Merkmalsträger, deren Ausprägung x; in der Klasse S; liegt. Die relative 
Häufigkeit Ah, und die kumulierten Häufigkeiten lauten dann ganz genau, wie 
im unklassierten Fall (i, k € 1...m): 


n = #ltel..n|mesS;} 
=. SHE Lite) 
h; ‚= 22 
n 
k 
N, = m = Nk-ı+nk 
il 
N k 
k 
Hr, := TE = 2 = Hr-ı+ hr 
i= 


Da man nun aber nicht mehr weiss, wie die Verteilung innerhalb der Klasse 
5; aussieht, geht man von folgender Grundannahme aus: alle s € $; sind 
gleich häufig. D.h. man geht von der absoluten Häufigkeit h; zu einer Häu- 
figkeitsdichte h} über. Da die Gesamthäufigkeit der Klasse 9; ja h, sein 
soll, muss hf also folgenden Wert haben (VE 1...m): 


wi = GTGi-1 
h; 
%* PER Tı 
Done 
Wi 
eg G-1+ 
T u 2 


Dabei ist w; die Klassenbreite und s/ der Klassenmittelpunkt. D.h. 5; 
sagt uns, wo die Werte zu finden sind und 5; ragt links (negativ) und rechts 
(positiv) um w;/2 über s} heraus. Führt man eine Klassierung von 5 ein, 
so muss man also konsequent s; durch s/; ersetzen. Führen wir dies für die 
Basiswerte aus, so erhalten wir (i, k € 1...m): 


a; 

* * = .c* 

X; „| h;isds = nis; 
ai_ı 


m m 
x Je ) SE ) nis; 
i=1 i=1 








1 m 
Ares „x = > hisi 
i=1 
eK _ As 
er Ne A*(z) 
k 
L = VG = Dur+k 
i—=1 
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Beispiel: In einem Unternehmen werden die folgenden Gehälter s; gezahlt: 


i Gehalt s; Häufigleit n,;, in Klasse 
1 0,64 4 1 
2 0,9 1 1 
3 1 2 1 
A 1,4 1 1 
5 1,8 2 1 
6 2 4 2 
7 3,5 3 2 
8 5,5 1 2 
9 9 1 3 
10 9,5 1 3 


Unter den n = 20 Mitarbeitern gibt es also m = 10 verschiedene Gehäl- 
ter, eigentlich noch kein Anlass zum klassieren, wir tun es aber dennoch 
und führen 3 verschiedene Klassen ein: die Geringverdiener S; = [0,2|, den 
Mittelstand Sa = [2,6| und die Großverdiener Sy = [6, 10|. Es ist dann 


02[ 10 2 05 025 1 10 
261 8 A 04 01 4 32 
6100 2 A 0,1 0,025 8 16 





Das Gesamtsumme der Gehälter wird nach der Klassierung also auf X* = 58 
geschätzt. In Wirklichkeit beträgt die Gesamtsumme aber X = 52,96. Die 
Abweichung kommt daher, dass die Verteilung in den Klassen eben nicht 
gleichmässig ist - vor allem in Klasse 3 besteht eine große Abweichung. 


Lagemaße: 


Analog zum unklassierten Fall, führt man die Lagemaße ein. Der Modus 
(oder auch dichtester Wert) D*(x) ist der Wert mit der größten Häufigkeits- 
dichte. Das arithmetische Mittel (oder auch Durchschnitt) A*(x) ist der 
Gesamtbetrag X* pro Merkmalsträger, also: 


D*’(x) := 5, sodass h,=max{h; |iel...m} 
1 m 
A*(x) := „x — > his; 
i=1 


In einem Histogramm werden die Häufigkeiten graphisch dargestellt, indem 
man die Punkte (a;-; | h}) und (a; | h?) zu Balken verbindet. Der Modus 
ist also die Klasse, mit dem höchsten Balken. Verbindet man hingegen die 
Punkte (a; | H;) zu einer stückweise linearen Funktion, so spricht man von 
der empirischen Verteilungsfunktion H. 
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Beispiel: Wir klassieren das Intervall [0,8| an den Stellen ao = 0, aı =1, 
a2 =2,a3 =4, aa = 7 und az = 8. Die relativen Häufigkeiten der Klassen 
seien hı = 0.15, ha = (0, ha = 0.4, h; = 0.25 und hz = 0.2. Dann erhalten 
wir daraus die Häufigkeitsdichten h] = 0.15, h5 = 0, h3 = 0.2, hi = 0.08 
und h& = 0.2. In diesem Fall ist der dichteste Wert also nicht eindeutig! Er 
beträgt s3 = 3 oder auch s} = 7.5. Das Histogramm bzw. die empirische 
Verteilungsfunktion zu diesen Daten sehen damit wie folgt aus: 











Verteilungsfunktion 


Die Stelle X, an der diese Funktion H den Wert 1/2 annimmt, wird Median 
(oder Zentralwert) genannt (es ist k € 1...m so, dass H,_ı <1/2< Hy): 





1 
2’(z) = T sodas H(r) = 5 
H,-3 
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Genau wieim unklassierten Fall kann man nicht nur die Trennlinien zwischen 
unterer und oberer Hälfte markieren, sondern auch zwischen den jeweiligen 
Vierteln. D.h. man führt wiederum Quartile ein, wobei die Trennlinie jetzt 
innerhalb einer Klasse liegen kann. Ganz analog zum Zentralwert setzt man: 


Q;(z) := 7 so dass Ha) =]! 


Ari 
hr 





=) AR — 


Streuung und Konzentration: 


Man kann die mittlere, absolute Abweichung, Varianz, Standardabweichung 
und sogar den Gini-Koeffizienten genauso im klassierten Fall berechnen, wie 
im unklassierten Fall. Aufgrund der Grundannahme treten aber zu der exter- 
nen Streuung zwischen den Klassen noch die internen Streuungen innerhalb 
der Klassen hinzu. Man erhält also Korrekturterme, die die interne Streuung 
widerspiegeln: 


i 


on)? := 2 (s- A*(a))? ds 


— 2 hi(s} — A*(2))” + „ > hiu; 





oil) = Zn Is-Ztalas 


i=1 


= Ile 210) I (E12) 


wobei in letzterer Gleichung k € 1...m so war, dass ax_ı < Z*(z) < ax. 
Genauso erfährt der Gini-Koeffizient eine Abweichung durch die Ungleich- 
verteilung innerhalb der Klassen: 


R = 1-Vh(li +) Dre Ian 
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Kapitel 8 





Zweidimensionale Verteilungen 


Wir haben bisher immer nur ein Merkmal x betrachtet - wo es liegt, wie 
weit es streut und sogar wie ungleich es verteilt ist. Oftmals interessiert man 
sich aber gerade für den Zusammenhang zwischen zwei Merkmalen x und 
y. Entsprechend haben wir diesmal also zwei Mengen R und 5 möglicher 
Merkmalsausprägungen. Wir bezeichnen 


R 
$ 


17:73, 


et 


Einem jeden Merkmalstrger t€1...n werden also zwei Merkmale x; und yı 
zugeordnet. D.h. x und y sind zwei Zuordnungen der Form 


a:1l..n—JR: tor 
y:1l..nJS:tHrYy 


Wir haben es also mit einem Merkmalsraum zu tun, der die Paare (x, yı) 
enthält. Und als diesen bietet sich das Karthesische Produkt an: 


RI A telepan eli:g) 


Wir definieren nun die Grundbegriffe, wie im eindimensionalen Fall. Wir 
müssen lediglich der Tatsache Rechnung tragen, dass wir immer die Paare 
(xt, yı) betrachten. Die absolute Häufigkeit n;; bzw. relative Häufigkeit hi; 
gibt also die Zahl der Vorkommen der Kombination (ri, s;) an: 

Ni, nl erund y=s;} 


hi; = 


| 
IR 
urn 
D® 
mn 
m 


Am einfachsten lassen sich diese Daten in einer Matrix (Tabelle) darstellen. 
Als Beispiel betrachten wir eine repräsentative Umfrage unter 1000 Bundes- 
bürgern zu ihrer Berufsausbildung (Merkmal x mit den Auspr&ungen ’kei- 
ne’, Lehre’ und ’Studium’) und ihrem Arbeitsverhältnis (Merkmal y mit den 
Ausprägungen ’arbeitslos’, ’Arbeiter’, ’Angestellter’ und ’selbstständig’). Das 
Ergebnis der Umfrage könnte dann wie folgt aussehen: 
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arbeitslos Arbeiter Angestellter selbstständig Summe 


keine 39 109 88 16 248 
Lehre 47 189 263 36 930 
Studium 9 15 152 41 217 
Summe 91 313 803 93 1000 


Die Zahl aller Merkmalsträger t mit Ausprägung r; (bzw. mit Ausprägung 
sj) bezeichnen wir als absolute Randhäufigkeit. Sie ist definiert als: 


q 
2 TE Lan Sm} >= m 
jel 


p 
n4, = #ftel..n|u=s}= Im 
i=1 


Entsprechend definieren wir die relativen Randhäufigkeiten als die An- 
teile der absoluten Randhäufigkeiten an der Gesamtzahl der Merkmalsträger: 


q 
NG,+ 
Be > hi 
je1 
N; 2 
a 
= = his 


Il 
u 


ı 


Wollen wir die Arbeitslosenquote der Akademiker bestimmen, so müssen wir 
offenbar die Zahl der arbeitslosen Akademiker durch die Gesamtzahl der 
Akademiker teilen (= 9/217 = 4,1%). Wir sortieren also erst diejenigen aus, 
die der Bedingung genügen Akademiker zu sein. Und unter diesen betrachten 
wir dann diejenigen, die auch die Ausprägung ’arbeitslos’ aufweisen. Allge- 
mein definieren wir die bedingte Häufigkeit h(r; | s;) als den Anteil der 
Merkmalsträger t mit Ausprägung (r;, s;) an all denen, die die Bedingung s; 
erfüllen: 





has) Fe. 2 
nn De 
Bi, 5; 

am, =, 
i, i, 


In unserem Fall unterscheidet sich die Arbeitslosenquote der Akademiker 
(4,1%) von der allgemeinen Arbeitslosenquote (9,1%). Es überrascht nicht, 
dass die Qualifikation das Beschäftigungsverhältnis beeinflusst. Betrachten 
wir noch eine andere Zahl: etwa ein Drittel (genau 313/1000) aller Bundes- 
bürger sind Arbeiter. Und ein Viertel (genau 248/1000) aller Bundesbür- 
ger haben keine Berufsausbildung. Wären diese beiden Eigenschaften von- 
einander unabhängig, würden sie sich einfach überlagern: ein Viertel der 
Arbeiter hätte keine Berufsausbildung, das wäre etwa ein Zwölftel (genau 
77,624/1000) der Bundesbürger. Tatsächlich sind es aber 109/1000. Die bei- 
den Merkmale sind also nicht unabhängig. Nun allgemein: 
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Die Merkmale x und y heißen unabhängig verteilt, wenn die bedingten 
Häufigkeiten gar nicht von der Bedingung abhängen. Formal: die folgenden 
drei Aussagen (a), (b) und (c) sind äquivalent. Und sind sie erfüllt (es genügt 
wenn eine dies ist), dann nennen wir x und y unabhängig: 


(a) für allewei...pundallejel...ggilt:h,; = hı;hi+ 


(b) für alleiel...pundallejel...g gilt: hir; |s;) = hi+ 


(ce) für alleiel...pundallejel...ggilt: h(s; |r,) = h+j 


Diese Definition ist rein qualitativ - die Merkmale x und y sind unabhängig 
ja oder nein. Wir suchen nun nach einem Kriterium wie stark die beiden 
Merkmale voneinander abhängen. Dazu bezeichnen wir die Idealwert der 
Unabhängigkeit mit: 

ws; = hyrjhir 


Diese Werte bilden wieder eine Häufigkeitsverteilung - nämlich die Vertei- 
lung, die durch unabhängige Überlagerung der Verteilung h;+ von R und 
hy+,; von 5 entstanden wäre. Entsprechend gilt wieder: 


q 


p p 
3 U; = 3, hir > hrs = > Nase: -=1 
j i=1 j i=1 


1j-l 1 


p 
I= 
Dann messen wir die quadratische Abweichung der Häufigkeit h;,; von dem 
Idealwert u;; der Unabhängigkeit. Damit aber alle Kombinationen (i,j) 
gleich stark berücksichtigt werden, müssen wir die Abweichung wieder mit 
u;,j; normieren. Auf diese Weise findet man die mittlere quadratische 
Kontingenz: 

3 su) 


U; .J 


GC == 


p 
i= 


1j=1 


Das so definierte C nimmt Werte von O0 bis u— 1 an, wobei u :=min{p,q}. 
Der Wert O0 wird dann und nur dann angenommen, wenn x und y unab- 
hängig verteilt sind. Und der Wert u wird erreicht, wenn pro Zeile (oder pro 
Spalte) immer nur ein h; ; # 0 auftritt. Wir definieren daher die korrigierte 


Kontingenz: 
se aan cp 
THAN CHT 
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Kapitel 9 
Korrelation 


Wir betrachten wieder zwei Merkmale x und y und wollen diesmal den 
Zusammenhang genauer analysieren. Zusammenhang heißt, dass besonde- 
re (große oder kleine) y auch zu besonderen x; gehören müssen. Sind die 
besonderen y; wirr verteilt, haben die Daten wohl auch nichts miteinander 
zu tun. Ob ein Wert x; oder y: aber groß oder klein ist, messen wir daran, wie 
weit er vom Durchschnitt A(xz) bzw. A(y) abweicht. Sind beide Abweichun- 
gen groß spricht das für einen starken Zusammenhang. Ist eine der beiden 
Abweichungen groß die andere klein, spricht das für einen schlechten Zusam- 
menhang. Die Kombination der Abweichungen kann man durch die Produkte 
(2: — A(x))(yı — A(y)) als Fläche im xy-Diagramm messen. 


positive Fläche 









= gleichläufiger 


Zusammengang 


negative Fläche 


= gegenläufiger 


y,-A) Zusammengang 
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Man beachte, dass klein-klein und groß-groß positive Produkte bilden, wäh- 
rend klein-groß und groß-klein negative Produkte bewirken. Sind die Werte 
wirr verteilt, heben sich die Flächen also gegenseitig weg. Steckt ein System 
dahinter, addieren sie sich auf. Ausgehend von dieser Überlegung definiert 
man die Kovarianz: 


ot@ly) = 2%. m - AB) - Aw) 
u 
= DYhaslei - Aa))(s5 - A) 
i=1 je 
= Alay) = Ala)A(y) 


Satz: Anhand dieser Definition rechnet man leicht nach, dass die Kovarianz 
eine Reihe nützlicher Eigenschaften erfüllt (aER, x, X und yeR”): 


o(z|ly) = oly|x) 

o(z|x) = o(x)?>0 

o(ax|y) = acl«|y) 
oa+x|y) = ol@|y)+ole|y) 


Nun hat die Kovarianz noch einen Webfehler: sie misst die absolute Ab- 
weichung der Werte x; und y; von den Durchschnittswerten. Es macht aber 
mehr Sinn diese Abweichung in Einheiten der jeweiligen Standardabweichung 
auszudrücken. Dies führt zur Definition des Korrelationskoeffizienten: 








_ Iam-Al) Ay) 
2,27 en 
_ sl) _ _(e-AR)|ly- Ay) 
o(z)o(y) I - Al&)|| - |y - A) | 


ee Schnittwinkel von 
2 x — A(z) und y- A(y) 


Ein Korrelationskoeffizient von —1 bis —0,6 zeigt einen starken, gegenläu- 
figen, linearen Zusammenhang an. Ein Korrelationskoeflizient von —0, 4 bis 
0,4 zeigt an, dass kein ausgeprägter linearer Zusammenhang besteht. Und 
0,6 bis 1 zeigt einen starken, gleichläufigen, linearen Zusammenhang an. 
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Lineare Regression: 


Wir vermuten nun einen Zusammenhang y = f(x) zwischen den Größen x 
und y. Die Funktion f, die den Zusammenhang beschreiben soll hängt aber 
zusätzlich von gewissen Parametern a, b, c,... ab. Wir werden uns hier aber 
nur mit dem Fall eines linearen Zusammenhangs beschäftigen: 


fan) = antb 


Satz: Unsere Aufgabe besteht also darin, die best möglichen Werte für die 
Parameter a und 5 zu finden, so dass die Funktion sich möglichtst dicht 
an die Datenpunkte (xt, y:) anschmiegt. Sich möglichst dicht anzuschmiegen 
bedeutet formal, dass der Abstand 





n 


de(a,b) = > (azı +b-y)? 


t=1 


minimal wird. Löst man dieses Minimierungsproblem, so findet man (durch 
Ableitung von da(a,b) nach b bzw. nach a) das folgende Gleichungssystem 


Alz)a+b = Aly) 
A(z?)a+ A(z)b = Alay) 
Löst man dieses Gleichungssystem nach a und b auf und vergleicht die entste- 


henden Ausdrücke mit der Definition der Varianz bzw. Kovarianz, so erkennt 
man die folgenden Berechnungsformeln für a und b: 





„_ el) 
la)? 
b = Aly)-a4le) 


Diese Gerade y = ax + b heißt Ausgleichsgerade oder auch Regressions- 
gerade von x und y. Bemerkenswert ist, dass diese Gerade (nach Gleichung 
1 des Minimierungsproblems) durch den Punkt (A(x), A(y)) der arithmeti- 
schen Mittel läuft. Und damit gilt: 


Alaxz+b) = aAlz)+b = Aly) 


Bezeichnen wir die Abweichung der y; von der Regressionsgeraden mit u; := 
Yyı — (axı + b) so ist also A(u) = O und damit Yno(u) = da(a,b). Wir haben 
also die Gerade so gelegt, dass sie die Streuung der Abweichungen minimiert. 


Man kann in eine Wolke von Datenpunkten (zx;, yı) natürlich nicht nur Gera- 
den einfitten, sondern beliebige andere Funktionen. Wie die Berechnung der 
Regressionsfunktion für Polynome höheren Grades funktioniert findet sich in 
den mathematischen Ergänzungen (16.15.) 
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Bisher haben wir nur eine Gerade durch die Datenpunkte (x, y:) gelegt, 
dabei diente x als Basis und y war der zugeordnete Wert. Entsprechend 
bezeichnen wir diese Gerade mit 9.(2) = a,% + b,. Natürlich können x und 
y aber auch die Rollen tauschen, d.h. y wird zur Basis und 9,(y) = ayy + by 
ist der zugeordnete Wert. Die Formeln für a, und b, sind (durch Vertauschen 
von z und y) a, = o(& | y)/o(y)” und b, = A(z)—a,A(y). Damit folgt dann 








u ee, 
(x) 
Gl 
Aus diesen beiden Formeln folgt: (1) r = +1 tritt genau dann auf, wenn die 


beiden Geraden g, und g, gleich sind und (2) r = 0 tritt genau dann auf, 
wenn die Geraden g, und g, senkrecht zueinander stehen. Schließlich gilt 
auch noch die Streuungszerlegung 


= 0(a,2 +b,)? + 0(u)? 


o(y) 
Dies ist so zu interpretieren: die Streuung der y: besteht aus 2 Anteilen (1) der 
durch den linearen Zusammenhang y = a,x + b, vermittelten Streuung der 
x; und (2) der Reststreuung o(u)?, die wir nicht erklären können. Der Anteil 
(an der Gesamtstreuung der y;) der durch den linearen Zusammenhang yı = 
Gx%t + db, und die Streuung der x; erklärbar ist, ist damit gegeben durch: 


oa +b) _ 9 
Mn 


Der Regressionskoeflizient liefert also dreierlei: (1) ein Maß dafür, wie ausge- 
prägt der lineare Zusammenhang ist (stark ab einem Betrag von 0,6), (2) r 
ist positiv, wenn die Daten gleichsinnig verlaufen und negativ, wenn die Da- 
ten gegensinnig verlaufen und (3) 1—-r? gibt an, wieviel Prozent der Streuung 
der y: nicht durch den linearen Zusammenhang erklärt werden kann. Doch 
Vorsicht: ist r = 0 so heißst das nicht, dass kein Zusammenhang zwischen 
den Daten besteht. Es besteht nur kein linearer Zusammenhang! 
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Rangkorrelation: 


Die bisherige Berechnung der Korrelation und der Ausgleichsgeraden funk- 
tioniert nur im Fall von quantitativer Daten $ < R. Ist eines der Merkmale 
x oder y nur komparativ, muss man eine neue Idee haben. Oder man kocht 
einfach dieselbe Idee nochmal auf: man weist den komparativen Daten ein- 
fach einen numerischen Wert (genannt Rang) zu, der ihre Reihenfolge wieder 
gibt. Das einfachste wäre es, die Daten x; zu sortieren &ı <xa <:..-<m 
und der Reihe nach mit 1, 2 bis n durch zu nummerieren: R(x:) := t. Das 
Problem ist, das manche x; aber mehrfach vorkommen und eine Ausprägung 
x; ja nicht mehrere verschiedene Rangzahlen R(x;) haben kann. In diesem 
Fall bildet man also das arithmetische Mittel dieser Zahlen. 


Beispiel: Wir betrachten die Berufsausbildung von 6 Personen und sortieren 
sie aufsteigend: keine, Lehre, Lehre, Lehre, Studium, Studium. Die Ausprä- 
gung ’keine’ ist unkritisch, sie kommt an erster Stelle und erhält den Rang 
R(keine) = 1. Die Ausprägung ’Lehre’ kommt aber 3mal vor (an den Stellen 
2,3 und 4) und erhält damit den Rang R(Lehre) = (2+3+4)/3= 3. Auch 
die Ausprägung ’Studium’ kommt mehrfachl vor (an den Stellen 5 und 6), 
erhält also den Rang R(Studium) = (5 + 6)/2 = 5.5. 


Satz: Allgemein kann man den Rang der Ausprägung s; auch direkt aus den 
kumulierten, absoluten Häufigkeiten N; berechnen, nach der Formel 


n; +1 
2 





1 
R(si) = = (Neai+14 + Nitm) = N;-ı+ 


T 


Ersetzt man jedes x; also durch seine Rangzahl R(x;) und verfährt genauso 
mit dem zweiten Merkmal y, so kann man wieder den Korrelationskoeffi- 
zienten r für die Ränge bestimmen. Prinzipiell könnte man auch die Aus- 
gleichsgerade R(y) X aR(x) + b bestimmen, es ist aber unklar, wie diese 
zu interpretieren ist. Bemerkenswert ist aber auch, dass das arithmetische 
Mittel der Rangzahlen stets (n + 1)/2 ist 


n-+1l 
2 





AlRla)) = 
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Kapitel 10 


Zeitreihenanalyse 


Die Zeitreihenanalyse ist eine leichte Modifikation der linearen Regression. 
Das Problem sieht folgendermaßen aus: zu jedem Zeitpunkt t€ 1...n hat 
man einen Wert y; gegeben. Zumeist ist y, der Umsatz eines Unternehmens 
im Quartal t. Der Umsatz ist jedoch von der speziellen Saison (etwa Frühjahr, 
Sommer, Herbst oder Winter) abhängig. Um den Umsatz für die Zukunft 
zu prognostizieren, genügt eine lineare Regression also nicht, da man den 
Einfluss der jeweiligen Saison berücksichtigen muss. Wir gehen im folgenden 
von der Annahme aus, dass yı also in 3 Teile zerfällt: (1) einen linearen Trend 
g(t) = at + b, (2) einen periodischen, saisonalen Einfluss s; und (3) in eine 
zufllige Störung u;. Insgesamt also: 


vv = (a+b)+s + 


Wenn wir davon ausgehen, dass eine Periode k Saisons umfasst, erstrecken 
sich unsere Daten y; über m = n/k Perioden (Beispiel: bei Quartalen beträgt 
k = 4, bei Daten über n = 12 Quartale, haben wir also m = 3 Jahre 
vorliegen). Dass die saisonalen Einflüsse periodisch sind heißt nun 








sI = Sı4k = S142k 
532. = 924k 7 9242k 7 
Sk = 5% = Sk 7 


Die Zahlenfolge (sı, s2,...,sr) heißt auch Saisonfigur. Wir lösen das Pro- 
blem nun in 2 Schritten: zunächst ermitteln wir den linearen Trend, indem 
wir eine lineare Regression der Punkte (t,y;) ausführen. Eine leichte Rech- 
nung zeigt A(t) = (n+1)/2 und damit auch o(t)? = (n? — 1)/12. Mit Hilfe 
dieser Gleichungen wird die Berechnung der Trendgeraden recht einfach: 








„_ lo) 
o(t)? 
= Ali) - Al) 
b = Aly) -aAlt) 
= Aue 
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Die saisonalen Einfüsse berechnen wir, als durchschnittliche Abweichung der 
y: von dem erwarteten Wert auf der Trendgeraden. Man beachte, dass nur 
51, 52 bis s, berechnet werden müssen, da sich die saisonalen Abweichungen 
danach zyklisch wiederholen: 





1 m-—1l 
na, (Yirjk — gli + jk)) 
j=0 
1 . n—k 
zu Yi+jk g(i) 4 5) a 
j=0 


Sind a, b, sı, sa bis s, auf diese Weise berechnet worden, so hat man also 
eine Näherung at +b+ sı für yı gefunden. Als Prognose für die nächsten 
Perioden t > n dient damit ebenso at +b-+ sı. Es bleibt die Frage, wie gut 
die Zeitreihe die tatsächlichen Verhältnisse wieder gibt. Zunächst beobachtet 
man, dass die Varianz der y: in folgende 3 Teile zerfällt: 


o(y) = olat+b)’+o(s)” +o(u) 


Dabei ist o(at+b)? die Streuung, die aufgrund der Streuung der t (durch den 
linearen Zusammenhang) auf y; übertragen wird. Und o(s)? ist die Streuung 
der Saisonfigur. Diese beiden Anteile werden durch die Zeitreihenanalyse 
erklärt. Man beachte, dass die saisonalen Einflüsse sich im Mittel aufheben 
A(s) = 0. Damit kann man diese beiden Anteile recht leicht berechnen: 





2 

—1 

o(at+b)” = —; a? 
ı& 

o(s”? = de 


i—=1 


Die Reststreuung o(w)? kann man durch die Zeitreihenanalyse nicht erklären. 
Wie zuvor bei der linearen Regression nimmt man den erklärten Anteil der 
Streuung als Maß für die Güte der Näherung. Bei einem Wert r? bis 1/3 ist 
die Zeitreihenanalyse unpassend, bei einem Wert von 2/3 oder mehr, gibt sie 
die Verhältnisse gut wieder. 


9 o(at+b)?+0(s)? 
a 
o(y)? 
Eine etwas genauere Betrachtung der Situation ergibt, dass die Aufteilung 


in 2 Schritte nur zu einer Näherungslösung des Problems führt. Genauere 
Lösungsformeln, finden sich in den mathematischen Ergänzungen (16.19). 
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Kapitel 11 


Indices 


Indices dienen dazu den zeitlichen Verlauf einer Größe zu dokumentieren. 
Etwa beim Sozialprodukt wird der Gesamtwert aller produzierten Waren 
aufsummiert. Der Index ist nun das Verhältnis des Sozialprodukts im Be- 
richtsjahr b zum Sozialprodukt des Bezugsjahres a. Wir befinden uns also 
in folgender Situation: wir betrachten n verschiedene Waren (die Merkmals- 
träger), die wir mit ie 1...n durchnummerieren. Zu jeder dieser Waren i 
betrachten wir den Preis p;: und die Menge g;,: zum Zeitpunkt te N. Der 
Gesamtwert aller dieser Waren summieren sich also zu: 


n 
Gesamtwert = pi Gi,t 
i=l 


Die Zahlenfolge (q1.1, 92.1, - - - ; Qn,t) heißt Warenkorb (oder auch Mengenge- 
rüst) zum Zeitpunkt t. Den Gesamtwert des Warenkorbs zum Zeitpunkt t 
berechnet mit den Preisen vom Zeitpunkt s bezeichnen wir mit: 


n 
M(s|t) = > Pis Gi,t 
i=1l 


Die relative Gesamtwertentwicklung vom Zeitpunkt a bis zum Zeitpunkt b 
bezeichnen wir mit W,,». Offenbar berechnet sie sich nach: 


Der Preisindex nach Laspeyres bezeichnet die relative Gesamtwertentwick- 
lung wenn man im Berichtsjahr noch immer denselben Warenkorb gehabt 
hätte, wie im Bezugsjahr. Er ist also wie folgt definiert: 


b.. 
Pr > 


Der Preisindex nach Paasche kehrt das ganze um: er ist die relative Ge- 
samtwertentwicklung wenn man im Bezugsjahr schon denselben Warenkorb 
gehabt hätte, wie im Berichtsjahr. Er ist also: 


a em 
Pap > 


Dasselbe Spiel kann man natürlich nicht nur mit den Preisen machen, son- 
dern auch für die Mengen. In völliger Analogie definiert man den Mengen- 
index nach Laspeyres bzw. nach Paasche durch: 


v ._ Mta|b) 
Mala) 
e ._ M6|b) 
Mole) 


Anhand dieser Definitionen sieht man sofort, dass wir die Entwicklung des 
Gesamtwertes damit in zwei Bestandteile zerlegt haben: in die Entwicklung 
der Preise und die Entwicklung der Mengen. Dies drückt sich in folgender 
Formel aus: 

Br a, = Wi» = Pe a 


Wir studieren ein kleines Beispiel: das Sozialprodukt in den Jahren 0 bis 3. 
Es setzt sich (als Summe) zusammen aus dem Warenwert an produzierten 
Konsumgütern und Investitionsgütern. Die Preise der Konsum- bzw. Investi- 
tionsgüter im Jahr t bezeichnen wir mit pı,: bzw. mit pa.:. Und die produzier- 
ten Mengen an Konsum- bzw. Investitionsgütern bezeichnen wir analog mit 
q1,: bzw. mit qa,:. Das Sozialprodukt des Jahres t ist also $; = pı 191,1+P2,192.t- 
Nehmen wir die folgenden Zahlenwerte an: 


Pt At Pi mi 9 

2,0 250 15 200 800 
1,9 280 1,7 190 855 
18 320 2,1 160 912 
1,7 360 2,4 170 1020 


oo NH oO 


Um die verschiedenen Preis und Mengenindices auszuwerten berechnet man 
am einfachsten die M-Matrix, d.h. alle Kombinationen M(s | t) wie viel die 
im Jahr t produzierten Waren im Jahr s wert gewesen wären. Es ergibt sich: 





M(s|t) t=0 t=1 t=2 t=3 
s=-0 80 85 80 975 
s-1 85 855 880 973 
s=2 870 903 912 1005 
s=-3 95 932 928 1020 





Aus dieser Matrix lassen sich die Mengenindices als Verhältnissen entlang 
der Zeilen und die Preisindices als Verhältnisse entlang der Spalten ablesen. 
So ist etwa Pia — 905/800 und 2 = 975/800. Die Indices nach Paasche 
beziehen sich auf die Werte im Berichtsjahr, also P9: 3 = 1020/975 und O6 Me 
1020/905. Dies wird durch folgendes Diagramm illustriert: 
Q!r 
M(ala) =» M(a|b) 
y Pa y Pa 


Qas 
M(blaa > MG|b) 
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Die Wertindices berechnen sich als Verhältnisse entlang der Diagonalen, also 
etwa Wo, = 1020/800. Und man kann die obige Produktformel an diesen 
Zahlen sofort nachvollziehen. Klar ist auch: Die Käufer bevorzugen die billi- 
geren Produkte, passen sich also der Preisentwicklung an. Deswegen gilt bei 
realen Daten zumeist: 
Pi: Bi (Laspeyres-Effekt) 

Der Laspeyres-Index hat den Vorteil leicht interpretierbar zu sein, durch 
das veränderte Verhalten der Käufer muss aber der Warenkorb gelegentlich 
angepasst werden. Der Paasche-Index hingegen orientiert sich stets an den 
aktuellen Verhältnissen, dafür ändert sich die gesamte Indexreihe in jedem 
Schritt des Bezugsjahres. Weil also keiner dieser Indices alles kann, verwendet 
man daher gelegentlich die Indices nach Fisher: 


F /pL pP 
Pos 2 Eh 

F n /oL R 

a,b 7° ad as 


So richtig clever ist das aber eigentlich auch nicht: diese Indices lassen sich 
noch schlechter interpretieren, man muss den Warenkorb auf dem Laufenden 
halten und man muss sie in jedem Schritt neu berechnen. Zum Trost erhält 
man immerhin: 


— "BE SAR 
Was = Par Aa 


Die Indices nach Laspreyres und Paasche erlauben noch eine andere, interes- 
sante Interpretation: wir bezeichnen die relative Preisentwicklung der j-ten 
Ware mit T; (und die Umsatzentwicklung mit U;): 


Pj,a 
U, := Pj,095,b 
Pj,aQj,a 


Den Anteil der j-ten Ware am Gesamtumsatz im Jahr t bezeichnen wir mit 


Pj,tgj,t 


It :7 7 
Ya Pi,tQi,t 
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Dann ist der Preisindex nach Laspeyres das mit den Gewichten g;,. des Be- 
zugsjahres gewichtete arithmetische Mittel der Teurungsraten 7; und der 
Preisindex nach Paasche das mit den Gewichten g;» des Berichtsjahres ge- 
wichtete harmonische Mittel der Teuerungsraten T;. Der Wertindex hingegen 
ist wieder das mit den Gewichten g;,. des Bezugsjahres gewichtete arithme- 
tische Mittel der Umsatzentwicklung U; 


n 
Bee 
j-l 
1 % 1 
ne u 
P I ’ 
Fr 2 T; 
n 
Wa» — N a0; 
j-l 


Soweit zur Theorie der einzelnen Indices; betrachten wir nun die Indices in 
der Praxis. Wir müssen klären, wie man Indices aneinander hängt, auf ein 
anderes Bezugsjahr umrechnet und zur Deflationierung verwendet: 


e Verkettung von Indices: Nehmen wir an, wir haben drei Zeitpunkte 
a<b<c gegeben. Die Entwicklung von a bis b wird durch den Index 
I.» beschrieben und die Entwicklung von b bis ce durch den Index Iy.- 
Welcher Index beschreibt dann die Gesamtentwicklung von a bis c? 
Die Antwort liegt auf der Hand: da Indices als Verhältnisse definiert 
wurden, muss man einfach das Produkt bilden: 

Dee = Ia,b Inc 

Besonders einfach ist dies am Wertindex zu sehen. Hier ergibt die Ver- 

kettung von W.., vor W;,. gerade wieder W,.. denn: 





Leider ist die Situation bei den Preis- und Mengenindices eine andere. 
Hier ergibt die Verkettung PB eben nicht Bi: Deswegen rechnet 
man gerne in Einjahresschritten, indem man definiert: 


b 
DP r P 2 Pe P 
Pub 2 IJ P-11 En ee N ib 
t=a+1 


b 
Fe = L u: L 
= 1 u = dar as 


t=a+1 


Diese Indices lassen sich dann nach Konstruktion einfach aneinander 
hängen, d.h. es gilt Be — Pr und genauso O9 — Ve Zudem 
behält man die schöne Eigenschaft E Qe = Wi: 
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e Umbasierung von Indices: Wie bereits erklärt besteht bei den Indi- 
ces nach Laspeyres die Notwendigkeit den Warenkorb gelegentlich zu 
aktualisieren. Das statistische Bundesamt etwa tut dies alle 5 Jahre. 
Wir haben also eine Liste mit Indices /a,: für das Bezugsjahr a und 
wollen diese zu Ip: auf das Bezugsjahr b umschreiben. Die Verkettung 
Wosles sollte natürlich wieder /„: ergeben. Daher definiert man den 
umbasierten Index durch den Umweg über das alte Bezugsjahr: 


T Tat 
It = 7 
a,b 


Betrachten wir ein Beispiel: die Preisindices Py; nach Laspeyres für 
das obige Beispiel des Sozialproduktes. Wir basieren die Indexreihe 
von Jahr 0 auf Jahr 1 um und vergleichen dies mit dem Wert von Pr 


Pa Pr Ph 
1 0,982 0,988 
1,019 1 1 
1,088 1,067 1,018 
1,131 1,110 1,090 


oo wm oO 


e Deflationierung: (= Inflationsbereinigung) Die Kaufkraft von Geld 
ist virtuell, d.h. Geld hat keinen inhärenten Wert, es wird nur auf- 
grund eines gesellschaftlichen Konsens als werthaltig behandelt. Wenn 
sich das Verhältnis zwischen Geldmenge und Gesamtwert aller Güter 
verschiebt, ändert sich also die Kaufkraft eines Euros. Dies äussert 
sich darin, dass sich der Preis für ein und dieselbe Ware ändert. Eben 
dies misst aber ein Preisindex. Haben wir im Bezugsjahr a also eine 
Geldmenge Y, zur Verfügung, so berechnet sich deren Kaufkraft als 
@Q = Ya/Pa: Der Preis der Waren hat sich bis zum Berichtsjahr b aber 
nach P} = P.P.,, (mit einem passenden Preisindex P,,,) verändert. Um 
dieselben Waren Q zu kaufen benötigt man im Jahr b also die Geld- 
menge Y, = QP, = QPaPa, = YaPa,)- Wollen wir also die Kaufkraft 
einer Geldmenge Y;, im Jahr b auf das Jahr a zurück rechnen, erfolgt 
dies nach der Vorschrift: 





Dies geschieht bei einer Inflationsbereinigung: man rechnet die gegen- 
wärtige (nominale) Geldmenge Y, im Berichtsjahr b auf das Bezugsjahr 
a um, und erhält die Geldmenge Y,, die die (reale) Kaufkraft bezogen 
auf das Jahr a angibt. In der amtlichen Statistik verwendet man als 
Deflator den Preisindex nach Paasche, d.h. man berechnet 


Ye s 
a,b 
Wir führen die Deflationierung einmal am Beispiel des Sozialprodukts 
aus obigem Beispiel vor: der nominale Wert S? = M(t | t) ist der 
Geldbetrag im jeweiligen Jahr t. Der reale Wert $/ ist der mit 2 ‚auf 
das Jahr 0 deflationierte Wert: 
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Pie 
n/a 
1,012 
1,036 
1.015 


Be a 


1 
1,0 


800 800 
12 855 844,9 


1,049 912 869,4 
1,064 1020 958,6 


Beispiel: Hinter der bekannten Inflationsrate verbirgt sich natürlich ein In- 
dex. Sie wird ermittelt, indem die Kosten eines fixierten Warenkorbes über 
die Jahre hinweg berechnet werden (der Warenkorb wird alle 5 Jahre auf 
den durchschnittlichen Konsum aktualisiert, dann muss der Index umbasiert 
werden). Es handelt sich dabei also um einen Preisindex nach Laspeyres. 
Wir geben die Inflationsrate für die vergangenen Jahre an, verketten diese 
zum Index Paoo1, und basieren den um, auf das Jahr 2005 


t = Jahr 
2002 
2003 
2004 
2005 
2006 
2007 
2008 


1,5% 
1% 
1,7% 
1,5% 
1,6 % 
2,3% 
3,1% 


Inflationsrate 


PR: Paoo1, P3605,1 
1,015 1,015 0,959 
1,01 1,013 0,969 
1,017 1,043 0,985 
1,015 1,058 1 
1,016 1,075 1,016 
1,023 1,020 1,039 
1,031 1134 1,716 


Das heißt, hätten Sie einen Betrag von 100 Euro im Jahr 2002 gehabt, so 
hatte dieser im Jahr 2008 dieselbe Kaufkraft gehabt wie 113,4 Euro. Umge- 
kehrt sind 100 Euro aus dem Jahr 2008 nur soviel wert, wie 88,18 Euro im 


Jahr 2002. 
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Kapitel 12 


Wahrscheinlichkeiten 


Beispiel: Wir werfen 2 normale (6-seitige) Spielwürfel und addieren deren 
Augensumme. Dann gibt es 36 mögliche Würfelereignisse - die gewürfelten 
Paare (1,1), (1,2) und so weiter bis (6,6). Jedes dieser Ereignisse ist gleich 
wahrscheinlich, kommt (im Durchschnitt) also jedes 36te Mal vor. Die mög- 
lichen Ergebnisse sind aber die Zahlen vn2=1+1bis 12=6-+6. Die 
einzige Möglichkeit eine 2 zu erwürfeln ist die Kombination (1,1). Also hat 
auch die 2 eine Wahrscheinlichkeit von 1/36. Der Zahl 4 liegen aber 3 mög- 
liche Ereignisse zugrunde - die Paare (1,3), (2,2) und (3,1). Die 4 hat also 
die Wahrscheinlichkeit 3/36 = 1/12. Also gerade weil jedes Elementarereig- 
nis (= das gewürfelte Zahlenpaar) die gleiche Wahrscheinlichkeit hat, haben 
die Ergebnisse (= die Augensummen) verschiedene Wahrscheinlichkeiten. 


Definition: Wir bezeichnen die Menge der Elementarereignisse mit Q, 
die Menge der Beobachtungswerte mit $. Eine Funktion 2:2 — $, die 
jedem Elementarereignis t € Q ein Ergebnis x; € 5 zuordnet heißt Zufalls- 
variable. Wir sprechen von einem Laplace-Prozess, falls 


(1) 2=1...n endlich ist, und 
(2) alle Elementarereignisse t€ 0 gleich wahrscheinlich sind. 


Im folgenden werden wir nur Laplace-Prozesse betrachten, auch wenn die 
entwickelte Theorie oft allgemeiner ist. Die Wahrscheinlichkeit eines jeden 
Elementarereignisses beträgt also 1/n. Die Wahrscheinlichkeit das Ergebnis 
s € $ zu beobachten, ergibt sich also zu: 


Zahl der günstigen Fälle #ltel...n|x=s!} 


= = — hs 
pls) Zahl aller möglichen Fälle n 








Bemerkung: Dies ist also bereits die Anknüpfung zur Statistik - die Wahr- 
scheinlichkeit den Wert se $ zu beobachten ist die relative Häufigkeit des 
Wertes s unter allen Elementarereignissen. Man kann einen unbekannten 
Prozess also folgenderma/ssen untersuchen: man macht viele Stichproben, 
diese liefern die Werte xı, xa bis xn. Die sı, s2 bis sm, seien wieder die dar- 
unter vorkommenden, verschiedenen Werte. Dann ist p(s;) = h; statistisch 
zu bestimmen. Und die Annäherung wird umso besser sein, je mehr Stich- 
proben wir machen, d.h. je größer n wird. 
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Annahme: Ist A= [sı,...,s,.} < S eine Liste möglicher Beobachtungs- 
werte, dann ist die Wahrscheinlichkeit bei einer Stichprobe den Wert sı oder 


sy oder ... oder s;, zu erhalten offenbar gegeben durch 
k 
P(A) = )_plsı) 
i=1 


Machen wir hingegen unter immer gleichen Bedingungen k Stichproben hin- 
tereinander so ist die Wahrscheinlichkeit bei der 1ten Stichprobe den Wert 
sı, bei der 2ten Stichprobe den Wert sa ... und bei der kten Stichprobe den 
Wert s, zu ziehen gegeben, durch p(sı) - p(s2) : :-  p(sx)- 


Beispiel: Wir haben eine Urne mit p weißen und q schwarzen Kugeln vor- 
liegen und es sein = p+ .q. Die Wahrscheinlichkeit bei 3 Ziehungen, mit 
Zurücklegen, erst eine weiße, dann eine schwarze und wieder eine weiße Ku- 
gel zu ziehen beträgt 


2 
pts)ptw)n(s) = B.4.2 = I 





Nun dasselbe ohne Zurücklegen - eine gezogene Kugel bleibt draußen. Zie- 
hen wir die erste weiße Kugel, bleiben nur p — 1 weiße Kugeln zurück. Die 
Wahrscheinlichkeit nun eine schwarze Kugel zu ziehen hat sich also geän- 
dert, zu q/(n- 1). Wurde auch diese Kugel gezogen sind also nur noch qg—-1 
schwarze Kugeln in der Urne. Die Wahrscheinlichkeit, dass die nächste ge- 
zogene Kugel weiß ist, ist jetzt also (p — 1)/(n — 2). Insgesamt beträgt die 
Wahrscheinlichkeit der Zugfolge also 


Br. 20 Del 
n n-1l n-2 





Axıome der Wahrscheinlichkeiten: 


Definition: Will man eine Theorie der Wahrscheinlichkeiten aufbauen, so 
ist es notwendig einige grundlegende Eigenschaften, wie sich Wahrscheinlich- 
keiten verhalten, als Annahmen (Axiome) zu Grunde zu legen. Aus diesen 
Eigenschaften folgert man dann weitere - weniger offensichtliche - Eigen- 
schaften. An den Ausführungen oben erkennt man, dass eine Wahrschein- 
lichkeit für jede Teilmenge A C S angegeben werden kann P(A) ist die 
Wahrscheinlichkeit, dass eines der Freignisse s € A eintritt. Formal ist 
eine Wahrscheinlichkeitsfunktion auf S$ also eine Abbildung der Form 
P:P(S)—R, die die folgenden Eigenschaften erfüllt: 


1) P(S)=1, 
(2) für A C S gilt stets P(A) > 0 und 
(3) für A, BC Smit ANB=B gilt stets P(AUB) = P(A)+ P(B) 


o0 


Eigenschaft (1) besagt, dass die Wahrscheinlichkeit bei einer Stichprobe ir- 
gendein Ergebnis zu erhalten gleich 1 ist. Eigenschaft (2) besagt, dass es 
keine negativen Wahrscheinlichkeiten gibt und Eigenschaft (3) ist eine for- 
male Fassung der obigen Annahme. 


Satz: Ist nun P eine beliebige Wahrscheinlichkeitsfunktion auf 5, so kann 
man aus den obigen Eigenschaften (1) bis (3) gleich einige weitere Eigen- 
schaften (4) bis (7) für beliebige Teilmengen A, BC $ folgern: 


(4) es ist P() = 0 

(5) es ist P(A) =fr=,B(A) 

(6) ist A B so folgt P(A) < P(B) 

(7) es gilt immer P(B\ A) = P(B) - P(AN B) 

(8) es gilt immer P(AU B) = P(A) + P(B) - P(AnB) 


Definition: Sei nun also P: P(5) — [0,1] eine Wahrscheinlichkeitsfunktion 
auf $. Dann nennen wir eine Abbildung der Form X :$ — R eine Zufalls- 
variable auf S. Und für diese (und x € R) bezeichnen wir die Mengen: 


{X =2} 
{X <a} 


| 
REN 
no 
nm 
un an 
= 
== 
IA Il 


Wir bezeichnen die Wahrscheinlichkeit, dass X den Wert x annimmt mit 
P(X = x) und die Wahrscheinlichkeit, dass X höchstens den Wert x an- 
nimmt, mit P(X < x). Formal bedeutet das 
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Kapitel 13 


Bedingte Wahrscheinlichkeit 


Beispiel: Ihr neuer Geschäftsfreund hat zwei Kinder, eines davon ist ein 
Mädchen. Wie groß ist die Wahrscheinlichkeit dafür, das das andere Kind 
ein Junge ist. Naiv würde man sofort 50% sagen. Eine genauere Betrachtung 
zeigt aber, das das nicht stimmt. Bei 2 Kindern gibt es 4 Möglichkeiten was 
für ein Geschlecht diese haben: (w,w), (w,m), (m,w) und (m,m). Die Kombi- 
nation (m,m) können wir im Vorfeld ausschließen, da wir ja bereits wissen, 
das eines davon ein Mädchen ist. Es bleiben also die 3 Möglichkeiten (w,w), 
(w,m) und (m,w). In 2 dieser Fälle ist aber ein Junge darunter, nur in einem 
Fall sind beides Mädchen. Da alle 4 Fälle gleich wahrscheinlich sind, erhält 
man: die Wahrscheinlichkeit, dass das andere Kind ein Junge ist, ist 2/3! 


Beispiel: Kehren wir zurück zu dem Beispiel in Kapitel 8. Wenn wir aus- 
werten wollen, wie hoch die Wahrscheinlichkeit für einen Akademiker ist 
arbeitslos zu werden, nehmen wir die Zahl der arbeitslosen Akademiker (9) 
und teilen sie durch die Gesamtzahl aller Akademiker (217), denn das ist ja 
die Häufigkeit der Arbeitslosen unter den Akademikern. Mit anderen Worten 


Wahrscheinlichkeit für einen 
Akademiker arbeitslos zu sein 
#arbeitslose Akademiker 
# Akademiker 
P(arbeitslos und Akademiker) 
P(Akademiker) 


P(arbeitslos | Akademiker) = 








Definition: Entsprechend dem obigen Vorbild setzen wir: ist P eine Wahr- 
scheinlichkeitsfunktion auf S und sind sind A, B C $ zwei Ereignis(mengen), 
dann definieren wir die bedingte Wahrscheinlichkeit, dass das Ereignis 
A unter der Bedingung B eintritt, durch: 


P(AnB) 
P(A|B) := SpB) 
Und die Ereignisse A und B C S heißen (stochastisch) unabhängig, 
wenn die Wahrscheinlichkeit von A gar nicht von der Bedingung B abhängt. 
Formal: die folgenden drei Aussagen (a), (b) und (c) sind äquivalent. Und 
sind sie erfüllt (es genügt wenn eine dies ist), dann nennen wir A und B 
(stochastisch) unabhängig: 
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(a) P(ANB) = P(A): P(B) 
(b) P(A|B) = P(A) 
(c) P(B|A) = P(B) 


Satz von der totalen Wahrscheinlichkeit: Es sei P eine Wahrscheinlich- 
keitsfunktion auf $S, A C S ein beliebiges Ereignis und S1, Sa bis S, sei eine 
Klassierung von $ (siehe Kapitel 7). Dann lässt sich die Wahrscheinlichkeit 
von A berechnen, nach: 


P(A) = I ,P(AIS)P(S) 


i=1 


Beispiel: Bei einer Spielshow wählt der Kandidat eines von 3 Toren A, B 
oder ©. Hinter einem der Tore ist der Gewinn, zwei der Tore sind Nieten. Die 
Chance auf das richtige Tor zu tippen ist also 1/3. Nachdem der Kandidat 
gewählt hat, öffnet der Showmaster ein drittes Tor - weder das gewählte, 
noch das mit dem Gewinn - und fragt "Wollen Sie jetzt doch das andere Tor 
nehmen?’ Was würden Sie tun? Denken wir nach: wenn Sie zuerst richtig 
gewählt hatten (= Bedingung richtig), dann müssen Sie das richtige Tor 
jetzt verlassen. Ihre Gewinnchance (= Ereignis Gewinn) ist in diesem Fall 
also gleich 0: 
P(Gewinn | richtig) = 0 


Hatten Sie aber zuerst das falsche Tor gewählt (= Bedingung falsch), dann 
weichen Sie jetzt zwingend auf das richtige Tor aus (denn eine Niete verlassen 
Sie und eine Niete hat Ihnen der Showmaster gezeigt, es bleibt nur das 
Gewinntor). Ihre Gewinnchance ist in diesem Fall also gleich 1: 


P(Gewinn | falsch) = 1 


Die beiden Fälle richtig und falsch bilden offensichtlich eine Klassierung des 
Raumes S. Es gilt also der Satz der totalen Wahrscheinlichkeit: 


P(Gewinn | richtig) P(richtig) 





P(Gewinn) = +P(Gewinn | falsch) P(falsch) 
= 0 I +1 N 


Wenn Sie sich umentscheiden steigt Ihre Gewinnchance also auf 2/3! Allge- 
meiner kann man diese Spiel mit n Toren spielen. Dann sind die bedingten 
Wahrscheinlichkeiten wieder P(Gewinn | richtig) = 0 und (weil 2 Nieten 
entfallen) P(Gewinn | falsch) = 1/(n — 2). Insgesamt also: 

1 n—l1 n—1l 


1 
P(Gewinn) = 0: _ 
en) n ug n-2 n n(n — 2) 





Satz von Bayes: Sei wieder P eine Wahrscheinlichkeitsfunktion auf $ und 
A << $ ein beliebiges Ereignis und $}, Sa bis S„, sei eine Klassierung von $. 
Dann gilt umgekehrt auch: 


PA|SJP(S) _ __ PA| SKIP (Sk) 


P(5r | A) = P(A) - D®,P(A|S)P(S) 








93 


Beispiel: Jetzt wird es leicht politisch: wir untersuchen die Beweiskraft von 
Geständnissen. Wir bezeichnen die die folgenden Ereignisse: $ := der An- 
geklagte ist schuldig, U := der Angeklagte ist unschuldig und G := der 
Angeklagte hat ein Geständnis abgelegt. Offensichtlich bilden $ und U eine 
Klassierung des Raumes und damit können wir die Wahrscheinlichkeit, das 
der Angeklagte schuldig ist, unter der Annahme das er gestanden hat, mit 
dem Satz von Bayes ausdrücken: 


P(G | S)P(5) 
P(G|D)P(D) + P(G | S)P(5) 





P(S|G) = 


Es bezeichne weiterhin p := P($5) und r := P(G | U)/P(G | S). D.h. p ist 
die (unbekannte) Schuldwahrscheinlichkeit des Angeklagten und r gibt an 
um wieviel (un)wahrscheinlicher es ist, dass ein Unschuldiger gesteht, als ein 
Schuldiger. Wegen P(U) =1-p erhalten wir (durch Kürzen von P(G | 5)): 


p 


AN Se 


Das Gericht ist natürlich davon überzeugt, dass ein Geständnis dafür spricht, 
dass der Angeklagte tatsächlich schuldig ist. D.h. der Richter glaubt an 
P(5)< P(S | G). Eine leichte Rechnung zeigt (mit obiger Formel), dass dies 
gerade r<1, also P(G| U)< P(G | 5) bedeutet. Das heißt ein Geständnis 
erhöht die Schuldwahrscheinlichkeit nur, wenn eine schuldige Person eher ge- 
steht, als eine unschuldige Person. Auf den ersten Blick denkt man: ja das ist 
doch wohl so. Aber stimmt das überhaupt? Es kommt tatsächlich vor, dass 
ein Unschuldiger unter Druck Taten gesteht, die er gar nicht begangen hat. 
Und wenn wir an Terroristen denken - die wurden in ihren Trainigscamps 
ausgebildet Druck auszuhalten, der Normalbürger nicht. Mit einem Blick auf 
Guantanamo sollte man also fest halten: bei mutmaßlichen Terroristen senkt 
ein Geständnis, das unter Druck gegeben wurde, die Schuldwahrscheinlich- 
keit! 
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Kapitel 14 


Kombinatorik 


In der Kombinatorik fragt man sich immer, wieviele Möglichkeiten es gibt 
eine bestimmte Situation zu realisieren. Die Frage, wie viele verschiedene 
Elementarereignisse es gibt, ist also immer eine kombinatorische Frage. Wir 
betrachten der Reihe nach verschiedene Grundprobleme: 


1. Schalterstellungen: Wir haben n Schalter vorliegen. Jeder dieser 
Schalter besitzt k mögliche Stellungen. Wieviele Schaltereistellungen 
sind dann möglich? Die Antwort liegt auf der Hand: n" viele. Dies 
Problem kann auch so formuliert werden: wie viele Möglichkeiten gibt 
es Worte mit k Buchstaben Länge zu bilden, wenn das Alphabet n 
verschiedene Zeichen kennt? Wieder n®. Noch eine Formulierung des- 
selben Problems: wir haben eine Urne mit n nummerierten Kugeln. 
Aus dieser ziehen wir k Mal, notieren die Nummer und legen die Kugel 
zurück. Wie viele verschiedene Ziehungen gibt es? Wieder n*. 

2. Lottoziehung: Wir haben n nummerierte Kugeln in einer Urne. Aus 
dieser ziehen wir k Mal und legen die Kugeln nicht wieder zurück (son- 
dern in der Reihenfolge der Ziehung vor uns hin). Wie viele mögliche 
Ziehungen gibt es? 





n(n-1)(n-2)...(n-k+1l) = - = “(}) 
n ! k 

Ein wichtiger Spezialfall ist der Folgende: wollen wir die n Kugeln 

umordnen, so können wir dies tun, indem wir Eine nach der Anderen 

ziehen, bis alle n Stück gezogen wurden. D.h. es ist k= n und damit 

gibt es n! mögliche Anordnungen (Permutationen) der n Kugeln. 


3. Lottoauswertung: Beim Lotto werden die Kugeln danach entspre- 
chend ihrer Größe sortiert, d.h. die Reihenfolge der Ziehung geht ver- 
loren. Je k! verschiedene Lottoziehungen ergeben also ein und dasselbe 
Lottoergebnis. Entsprechend finden wir: 


n on n-—1l n—k+l 
Ka. = 0 k 





BB) 


Dieses Problem lässt sich auch so formulieren: wir haben n nummerierte 
Kugel in Urne 1. Aus dieser Urne 1 ziehen wir k Mal (ohne Zurücklegen) 
und legen die gezogene Kugel in eine zweite Urne 2. Dann gibt es wieder 
(7) Möglichkeiten Urne 2 zu füllen. 


. Zweikugelordnung: Wir haben N Kugeln gegeben, n weiße und 
m = N —n schwarze. Wieviele Arten gibt es diese Kugeln anzuordnen 
(d.h. in eine Reihe zu legen)? Die Antwort lautet: 


N „> sem 
On 

Begründung: wir schreiben die Nummern 1 bis N auf die Kugeln. Es 
gibt N! Möglichkeiten die nummerierten Kugeln anzuordnen. Wischen 
wir die Nummern jetzt wieder weg, so spielt es aber keine Rolle mehr, 
in welcher Reihenfolge die weißen (bzw. die schwarzen) Kugeln unter- 
einander liegen. Je n! für die Weißen und (N —n)! für die Schwarzen 
Anordnungen sind also identisch. D.h. die N! Anordnungen der num- 
merierten Kugeln reduzieren sich auf N!/(n!(N -n)!) = en Anord- 
nungen für die unnummerierten Kugeln. 


. Kugelverteilung I: Wir haben n nummerierte Kugeln und k Urnen 
vorliegen. Wir wollen nun die Kugeln so auf die Urnen verteilen, das 
in die erste Urne nı Kugeln kommen, und ... und in die kte Urne n; 
Kugeln kommen (n=nı +na+:::+n;). Wieviele Möglichkeiten gibt 


es das zu tun? 
n! 





Begründung: es gibt n! Möglichkeiten die n Kugeln anzuordnen. Die 
ersten nı kommen in Urne, ..., die letzten n;. kommen in Urne k. Die 
Anordnung innerhalb der Urnen ist aber egal. D.h. wir müssen durch 
nı! (für Urne 1), und ... und durch n.! (für Urne k) dividieren. 


. Kugelverteilung II: Wir haben n identische Kugeln und k Urnen 
gegeben. Wir wollen diese Kugeln irdendwie auf die Urnen verteilen. 
Wieviele verschiedene Verteilungen gibt es? 


n+k-1 
) 
Begründung: Wir führen eine günstige Art ein, die Verteilungen zu co- 
dieren: eine weisse Kugel o codiert eine der n Kugel, und eine schwarze 
Kugel e codiert eine Trennwand. Zum Beispiel kodiert o oe e o folgen- 
de Situation: es gibt 3 Kugeln und 3 Urnen. Die erste Urne enthält 2 
Kugeln, die zweite Urne ist leer und die dritte Urne enthält eine Kugel. 
Wir haben also n weisse Kugeln und (bei k Urnen) m = k—1 schwarze 
Kugeln zur Codierung. Nach (4) gibt es genau (”"”*) solche Codes, 
n 


also ( Verteilungen. 
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7. Kugelziehen II: Wir haben eine Urne mit n nummerierten Kugeln. 
Aus dieser ziehen wir k Mal (mit Zurücklegen) und notieren die Häu- 
figkeiten, wie oft welche Nummer gezogen wurde. Wieviele Häufigkeits- 


verteilungen gibt es? 
n+k-1 
k 


Begründung: Zu jeder Kugelnummer nehmen wir eine Urne. Und wir 
stellen einen Sack mit k gleichartigen Bällen bereit. Wir ziehen nun 
eine Kugel aus der Urne, legen sie wieder zurück und tun dafür einen 
Ball aus dem Sack in die Urne der gezogenen Kugel. Das Ganze machen 
wir k Mal. Die Zahl der Bälle in den Urnen gibt also die Häufigkeits- 
verteilung an. Dazu haben wir aber k identische Bälle auf n Urnen 
verteilt. Und nach (6) gibt es dabei Dr) Möglichkeiten. 


87 


Kapitel 15 


Zusammenfassung 





Übersicht: 
| qualitativ | komparativ | quantitativ 
Lagemaß Modus D(z) Median Z(x) Durchschnitt A(x) 
Streuungsmaß Dispersion P Diverstät D Q, oı(z) und o2(x) 
Konzentration n/a n/a Gini-Koeflizient R 
Zusammenhang | Kontingenz C* | Rangkorrelation Korrelation r 
Lagemaße: 


Wir betrachten n Merkmalsträger, nummeriert mit t € 1...n. Die Aus- 
prägung des t-ten Merkmalsträgers wird mit x; bezeichnet. Die möglichen, 
verschiedenen Ausprägung seien s; wobei i € 1...m. Die absolute Häufig- 
keit der Ausprägung s; wird mit n;, die relative Häufigkeit mit h;, = n;/n 
bezeichnet. Dann gilt: 


n m 
Pe — Ya —_ msi 
t=1 i=1 
ii n m 
A(z) = DD: = N hisi 
t=1 i=1 


D(z) = 5 sodas nr =max{n, |iel...m} 
: 3 fürn gerade 
Pe = 2 
A REN { " fürn ungerade 


Konzentration: 

Im Fall eines komparativen Merkmals sei sı < sa <--- < sm. Dann bezeich- 
nen N; bzw. H, die kumulierten absoluten bzw. relativen Häufigkeiten und 
L; die kumulierte, relative Merkmalssumme (wobei k € 0...m) 


k 
N := m = Nk-ıtnk 
1 


N k 
H,. := = = hi = Hrı-ı + hr 
sl 
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Nn;Si h; 5; 


A(z) 


X 
k 
L; = hi = L,-ı + 








Der Gini-Koeffizient R ist dann definiert als das Doppelte der Fläche zwi- 
schen Lorenz-Kurve der Verteilung und der Diagonalen. Es gilt 





“ 2x n+1 
R = 1-) hilli-ı + Li) = Ey 2 = 
i=1 t=1 
0 eo .025 .oo.o 0Ae oo eL| 
— 0 
gute Gleichverteilung starke Ungleichverteilung 


Streuungsmaße: 

Im Falle eines quantitativen Merkmals misst man die Streuung der Verteilung 
mit der mittleren absoluten Abweichung oı(x) oder der mittleren quadrati- 
schen Abweichung (= Standardabweichung) o2(x): 


oa) = 1m Za)) 
t=1 





ae n (re? 
t=1 


oa) = 2m - AB)? 
t=1 
= nl) = A(2?) — A(2)” 


Bei qualitativen Merkmalen muss man sich auf die Häufigkeiten zurück zie- 
hen, es bleiben die Dispersion P und die Diversität D 


4 
i= 


[Ur yur vr vr vr vr iR ver) 0.9 e 1 
N mm nn — 
starke Ballung starke Streuung 
0 oe oo eo (06 oe oe 0.8 eo e| 
u —— 
starke Ballung starke Streuung 
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Klassierte Verteilungen: 

Im Fall einer klassierten Verteilung mit den Klassen $; = [a;-ı ‚a; | (mit 
i € 1...m) bezeichnen wir die absolute bzw. relative Häufigkeit der Klas- 
se 5; wieder mit n; bzw. h;. Ferner bezeichnet man die Klassenweiten w; 
Häufigkeitsdichte h} und Klassenmitten s; 








w = -GW-ı 
hi 
h* a — 
i w; 
EN G-1 + 
a 
a; 
De — n/ hisds = nis; 
a—1 
m m 
> — x = nis 
i= i=1 
FOREN 
Ra Art) 
=)» = Dark 


Damit ergeben sich die folgenden Lagemaße für klassierte Verteilungen (da- 
bei bezeichnet H die empirische Verteilungsfunktion, Z* (x) ist dann der Wert 
z, für den H(z) = 1/2 ist, also Hr _ı <1/2<H,) 


1 m 
A* er BEN 
(a) = — 2 
D’(x) = 5 sodas h,a=max{h; |iel...m} 
H,„- 1/2 
hi 


Die mittlere (absolute bzw. quadratische) Abweichung und der Gini-Koefhizient 
bestehen dann aus zwei Anteilen - einem externen Anteil (1. Summand), der 
durch die Verteilung auf die Klassen entsteht und einem internen Anteil 
(2. Summand), der innerhalb der Klassen entsteht: 


a 35 — A*(x Dit 


il) = hitze wi 


en .m so, dass ar;_ a Ed 


Re 1 Int tt Ian 


Qq 
D* 
= 
[} 

|| 
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Kontingenz: 

Wir betrachten wieder n Merkmalsträger, nummeriert mitte 1...n. Dies- 
mal werden jedem t jedoch 2 Ausprägungen x; € R = {rı,...,r»} und 
y € S = {sı,...,s,} zugeordnet. Die absolute (bzw. relative) Häufigkeit 
der Merkmalskombination (r;,s;) bezeichnen wir mit n;,; (bzw. h;,;). Dann 
bezeichnen wir die Randhäufigkeiten bzw. bedingten Häufigkeiten 





q 
u Tel. eih> 2; 2 
p 
nz ae SHELL [er >,n ni 
il 
N; + q 
hi,+ I 7 _ his 
— 
hı, = —4 - Im 
Dr en 
) DV] 
alas . Ni; hi; 
hölı) := en 
%, 7, 


Die Merkmale x und y sind unabhängig wenn für alle« € 1...p und alle 
jel...ggilt hi; = wi,j. Allgemein misst man den Zusammenhang zwischen 
den beiden Merkmalen mit der (korrigierten, quadratischen) Kontingenz C* 
(wobei C E0O...(u—1) und a :=min{p,q}) 


pP q 
(ij Wi) 
3 - ü 


GR ES F A/ S 
u-iVC+1 
Lineare Regression: 


Der absolute, lineare Zusammenhand der Merkmale x und y wir mit Hilfe der 
Kovarianz o(x | y) gemessen. Normiert auf Standardabweichungen o(x) = 
o2(x), bzw. o(y) = oa(y) wird dies Korrelationskoeffizient r genannt 


C 








olalm) = 2). - Ala))lm - A) 

Na 

= DI haste - Al))(s5 - AQ))) 
i=1 j=1 

= Alıy) - Al) Al) 

_ 12-42) y- Aly) 

A >= °(%) °(y) 

_ lo) 

oe) 


-1le eo -06 oo —O)4Ae eo04 oe 06 oe eo 1 
—— —— ——— 
stark gegenläufiger kaum linearer stark gleichläufiger 
Zusammenhang Zusammenhang Zusammenhang 


Die Regressionsgerade y = ax + b ist die Gerade, die den Zusammenhang 
am besten wieder gibt (sie minimiert die Streuung o(u)? der Abweichung 
U = yı — (axı + b)). Sie berechnet sich als 








a Aay-Aa)A)  _ o(z|y) 
= A(x?2)-A(x)? = o(x)? 
Alx A(xz)A(z 
ae = Al) -aAl) 


Die Streuung der y zerfällt in o(y)? = o(ax + b)? + o(u)”. Der Anteil der 
Streuung der y, der durch die Streuung der x und den linearen Zusammen- 
hang erklärt werden kann ist nun gegeben, durch 


Zeitreihenanalyse: 

Wir betrachten ein Merkmal y im Verlaufe der Zeit t = (1,2,...,n), wobei 
n = km in m Zyklen von je k Saisons zerfällt. Die Trendgerade y = at +b 
ist die Regressionsgerade zwischen t und y, es gilt 














Albea n+1l 
n?-1 
al. 3 
12 6 
a = 3 Alto) 4) 
n-+1l 
b = Aly) - 5 


Wir wollen nun den saisonalen Einfluss s; schätzen y = at+b+ s; (wobei 
t= jk-+i). Die Streuung o(u)? der Abweichung u; = y — (at +b+ s;) wird 
minimal für die saisonalen Einflüsse 


m-—1 








1 n—k 
Waage == via = (ai+d+ 5 a) 


s, 


3-0 3-0 


Die Streuung der y zerfällt in o(y)? = o(at+b)?+0(s)?+o(u)?. Der Anteil 
der durch den Trend und die saisonalen Einflüsse erklärt werden kann ist 








Sn o(at+b)?+0(s)? 
o(y)? 
2 
u ee Be 
o(at+b) = a ® 


1 k 
a? = 18 
i—=1 
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Rangkorrelation: 

Im Fall zweier komparativer Merkmale komparativen Merkmale zı < x2 < 
.<m und yı <Sya <-- < yn vergibt man Ränge zur Berechnung der 
Kovarianz. Der Rang der i-ten Ausprägung berechnen sich nach 


n;t+l1l 
2 





Rs) = Ni-ı+ 


Und damit ergibt sich dann das arithmetische Mittel, bzw. die Kovarianz zu 
(es macht keinen Sinn eine Korrelation berechnen zu wollen) 








AR) = TH 
2 
o(R(a) | R(y)) = A(Ra)R( )-() 
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Kapitel 16 


Mathematische Ergänzungen 


In diesem Kapitel werden wir manche Aussagen aus den vorangegangenen 
Kapiteln mathematisch sauber fassen und vor allem alle Formeln beweisen. 
Dieses Kapitel wendet sich also primär an die mathematisch interessierten 
Leser, die sich nicht mit einem das ist halt so zufrieden geben. Zunächst 
beweisen wir die Formeln der speziellen Summen: 


Satz 16.1: Esseien 1 <ne N undge Rmit q #1. Dann gelten die 
folgenden Formeln zur Berechnung einiger einfacher Summen: 


Sk > n(n +1) 
k=1 


Y.2k-1) = n 


k=1 
I q 
k 
ee 
k=0 


yr _ (2n+1)(n+1)n 





Beweis: Die erste Formel beweist man mit einem fast schon zauberhaften 
Trick: wir schreiben die Zahlen 1, 2 und so weiter bis n in aufsteigender 
Reihenfolge hin. Darunter schreiben wir sie ein zweites Mal, aber in abstei- 
gernder Reihenfolge, also n,n— 1 bis 1 


1 2 3 o[n-ili on 
n n-1l n-2 -- 2 1 


Addiert man je zwei übereinander stehende Zahlen, so ergibt sich immer die 
Summe n-+1. Insgesamt hat man also die Summe n mal n+1. Wir haben die 
Zahlen 1 bis n aber zwei Mal hingeschrieben, also 2(142+---+n) =n({n+1). 
Die Behauptung ergibt sich durch Division durch 2. Die zweite Formel erhit 
man aus der ersten durch eine einfache Rechnung: 


n 


26-1) = IE Dı=2 un n=n’+n-n=n? 
k=l 


k=1 
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Die dritte Formel erhält man wieder durch einen schönen algebraischen Trick 
- wir beginnen mit dem folgenden Ausdruck: 


n n n n n 
TED ERDE Di 
k=0 k=0 k=0 k=0 k=0 
n-+1 n 
Y#-) = eg! — Dr 
k=1 k=0 


Ist q #1 kann man diese Gleichung durch q—1 dividieren, sofort die Behaup- 
tung liefert. Der Beweis der vierten Formel verwendet die Beweismethode der 
vollständigen Induktion. Die Idee dabei ist folgende: zunächst rechnen wir die 
Aussage für n = 1 nach: (2+1)(1+1)1/6 = 6/6 = 1 = 1? stimmt. Der erste 
Schritt n = 1 ist damit erledigt. Nun setzen wir einen Schritt nach dem 
anderen. Wenn wir allgemein die Schritte 1, 2 und so weiter bis n schon alle 
nachgerechnet haben, dann ist n + 1 als nächster Schritt dran. Um diesen 
auch noch nachzurechnen fangen wir an mit: 


(a+ +1) (m +1+1)(n+1) = (n+1)((2n+3)(n+2)) 
_ (n + 1)(2n? +n +6) 
— (n+1)((2n + m +6(n+1)) 
= (in+1)(n+1)n+6(n +1)? 


Wir bezeichnen die Summe s, = 1?+2?+-:-+n?. Da wir gerade im Schritt 
n +1 sind, haben wir s, = (2n + 1)(n + 1)n/6 schon nachgerechnet. Und 
setzen wir die obige Rechnung ein so kommen wir wie gewünscht einen Schritt 
weiter (und damit gilt die Behauptung für alle n): 


SH = mt+(n+1) = ent dintln | Las 
(n+ +1) (m+D+1)(n+1) 


6 




















Definition 16.2: Seien 2 = (X1,X2,...,%n) und y = (y1,Y2,:..,Yn) € R” 
zwei n-Tupel reeller Zahlen. Dann definieren wir das arithmetische Mittel 
A(x), die Varianz o?(x) und die Kovarianz o(x | y) durch: 


t=1 
otaly) = 2). Ale) - Aw) 
t=1 
(2) := o(z|x) 
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Bemerkung 16.3: Wie zuvor bezeichnen wir die verschiedenen Zahlen un- 
ter den x: mit r;, d.h. {21,22,...,2n}={rı,r2,...,r»} wobei die r; paar- 
weise verschieden sein sollen. Die absolute Häufigkeit n; von r; ist die Anzahl 
der Vorkommen von r; unter den x:, formal: n; := #{tel...n|u =r;}. 
Die relative Häufigkeit von r; ist h; := n;/n. Damit lässt sich das arithmeti- 
sche Mittel berechnen, als: 


ge 1 2 
Ale). = aD: = I msi = > hisi 
t=1 1 i=1 


Genauso bezeichnen wir die verschiedenen Zahlen unter den yı mit s;. Die 
möglichen verschiedenen Paare, die unter den (x, y:) vorkommen, sind also 
irgend welche (ri, s;). Wir bezeichnen mit n;,; die Zahl der (z:, y:), die gleich 
(ri, 55) sind, formal n,;:= #{tel...n|xı=r; und yı = s; }. Damit sieht 
man dann 


1. et v4 
Alay) = DD = IL I Msrisj = Sn, 
t=1 i=1 jel i=1 je 


Fassen wir die Zahlen x; — A(x) zum Vektor x — A(x) zusammen (genau- 
so y— A(y)), so ist die Kovarianz (nach Definition) nichts anderes als das 
arithmetische Mittel des Produktvektors (x — A(z))(y — A(y)), sprich: 


o(@|y) = Alle - Aa) y- AG) 
Satz 16.4: Seien z,x’ und y € R" Vektoren und sei aeR eine Zahl. Wie 


üblich interpretieren wir a = (a,a,...,a) € R” auch als Vektor. Dann erfüllt 
das aritmetische Mittel die folgenden Eigenschaften (genannt Linearität): 


Aa) = a 
Alaxz) = aAlk«) 
Aa+y) = Aka) + Ay) 


Und die Kovarianz erfüllt ebenfalls einige Eigenschaften, die als Symmetrie 
bzw. Bilinearität bezeichnet werden: 


ala |ay = 0 

o(@|y) = o(y|x) 

o(ar|y) = aclz|y) 
oa+x|y) = ol@|y)+ol«|y) 


Schließlich lassen sich die Kovarianz und Varianz mit Hilfe gewisser arith- 
metischer Mittel berechnen - dies wird Verschiebungssatz genannt: 


o(z|y) = Alay) - Alz)A(y) 
o°(z) = Aa?) - A(z)? 
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Beweis: All diese Eigenschaften lassen sich elementar nachrechnen. Zur 
Linearität: die erste Eigenschaft ist klar, denn A(a)= (a+a+:::+a)/n= 
(na)/n = a. Die beiden anderen Eigenschaften folgen genauso einfach: 


1x 1x 
— a ui — — A 
= 2 (am) a 2 & aA(x) 


Alı+y) = Ya + 2) = (Yard) = 4 = z) + A(y) 
t=1 


Und mit Hilfe dieser Eigenschaften des arithmetischen Mittels lassen sich 
bereits die Verschiebungssätze beweisen: 


o(@ly) = All@- Ala))ly - A) 


= Alay) - A(Aa)y) - A(Aty)e) + A(Aa)AWy)) 
= Alay) - Ala)Aly) - Aly)Ala) + Ala)Aly) 
= Alay) - A(lz)A(y) 

o°(z) = o(z|x) = Alzz) - A(z)A(xz) = Alx?) - A(x)? 


Die Symmetrie der Kovarianz ist klar: o(x | y) = Alzy) — Alz)A(y) = 
A(yx) — A(y)A(z) = o(y | x). Und mit Hilfe der Linearität und des Ver- 
schiebungssatzes folgt dann auch die Bilinearität der Kovarianz: 


o(a|x) = Alax) — A(a)A(z) 
aA(xz) -aA(z) = 0 
o(ax|y) = Alazy) — Alax)A(y) 
aA(xy) -aA(z)A(y) = ac(x | y) 
Alle +2’)y) - Aka + 2’)A(y) 
Alay + xy) — (A(x) + Ala’)) Ay 
= Alay) + Ala’y) — Alz)Aly) — Ala’)A(y) 
Alzy) — Alz)A(y) + Ala'y) — Aa’) A(y) 
= o(@|y)+o(e|y) 





o(z+:'|y) 
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Zu Lagemaßen: 


Bemerkung: In Kapitel 6 haben wir behauptet, dass das arithmetische Mit- 
tel und der Zentralwert durch orthogonale Projektion des x = (21,%2,...,£n) 
auf die Diagonale R1 entstehen. Wir wollen diese Behauptung nun präzisie- 
ren und beweisen. Die Punkte auf der Diagonalen R1 sind von der Form 
a= (a,a,...,a) € R”. Unter der Projektion versteht man, dass man dasje- 
nige a sucht, so dass die Punkte a und x möglichst nahe beieinander liegen. In 
den nächsten beiden Sätzen werden wir (unter anderem) folgendes beweisen: 
misst man den Abstand mit da(a,x), so kommt man beim arithmetischen 
Mittel a = A(x) an, misst man den Abstand mit hingegen mit dı(a, x), so 
erreicht man den Zentralwert a = Z(x). 


Satz 16.5: Seien &1,...,2n € R beliebige und wı,...,wn € R* seien 
positive reelle Zahlen, mit wı+---+w, = 1. Betrachten wir nun die gewichtete 
Abstandsfunktion 





d:R->+R’ :o» Ywilai - a)? 
i=1 


dann hat dein (globales) Minimum bei a = wırı +: '+WwnX£n: Insbesondere 
erhalten wir das übliche arithmetische Mittel für die Gewichte w; = 1/n. 


Beweis: Da die Funktion Rt — Rt :y+> y? echt ordnungserhaltend ist, 
genügt es anstelle d nur q := d? zu minimieren. Wir suchen also die kritischen 
Punkte vongq: R— R* auf, d.h. wir suchen die Nullstellen der Ableitung 
(vergleiche z.B. [Barner, Flohr Analysis I], Kapitel 8.2) 


0 = dla) = Ywl-1)22 - a) 
i=1 


n n n 
(-2) Ya + 2a) wi = 2a - 2) wii 
1 il il 


woraus sofort a = w12ı + "+ Wn&n folgt. Das an dieser Stelle tatsächlich 
ein Minimum vorliegt folgt wie üblich, aus 














Satz 16.6: Es seien die Werte &ı < 2x2 < -- < &n € R gegeben. Wir 
bezeichnen die Intervalle Io := ] — x, zı|, bzw. für k € 1...(n - 1) sei 
I; := [£k,&x+ı| und schließlich I, := [xn, o0|, Ferner betrachten wir die 
Abbildungen D:R>R*+, A:R— Zund $S:R-R, definiert durch 


Dia) = > 2; al 
i=1 


Ala):= #liel..n|u, <a}-#liel...n|ı;>a} 
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Sta) = Y,n- Baer 


Ti>a SG 


Dann ist D stetig und positiv, S und A sind konstant auf den Intervallen /o 
bis /„ und D ist auf diesen Intervallen affin-linear. Ferner gilt für alleaeR 


D(a) = S(a)+aA(a) 


Und bezeichnen wir h := n/2 für n gerade bzw. h := (n+ 1)/2 für n unge- 
rade, dann hat D ein (nicht zwingend eindeutiges) absolutes Minimum in xy. 


Bemerkung: Der Beweis ist elementar, aber erstaunlich aufwendig. Die zen- 
trale Einsicht besteht darin, dass D stückweise affin-linear ist. Ein Minimum 
kann also nur in einem Knick (einem der x;) oder in einer horizontal ver- 
laufenden Linie liegen. Mit etwas Geschick lässt sich zeigen, dass horizontal 
verlaufende Linien nur bei den mittleren x; vorkommen können. Man muss 
also noch argumentieren, dass x) eines der Minima ist. 


Beweis: 


1. Natürlich ist a > x; - a affin-linear, insbesondere stetig. Also ist auch 
a |x; — a| stetig, als Verkettung stetiger Funktionen. Schließlich ist 
D stetig, als Summe stetiger Funktionen. 


2. Die Identität D(a) = S(a) + aA(a) folgt durch elementare Rechung 


n 


D(a) = Ilm -al = I la-m)+) (mi -a) 
i=1 2; <a i>a 
= Ya-Y), ut), n-)a 
2i<a Li<a i>a Ti>a 
ze NY m-), mi+ta 1-31 
x>a iSd 234 Ti>a 


= S(a)+aA(a) 


3. Istiel...nundaeI, (kel...n), daanistt ,; <a — 1% <Ku 
[denn x; <a und a < xz+1 implizieren x; < zx+1 und umgekehrt folgt 


aus 2; < &g+ı aufgrund der Anordnung i< kund damit 2; <xr,. <a]. 


Für k = 0 ist diese Äquivalenz trivial (beide Aussagen sind falsch). 
Sind also a und be I; so folgt 


Gsa — <a m sb 
Die Aussagen x; < a und x; < b sind also äquivalent und damit sind 
A(a) = A(b) und S(a) = S(b). Sprich A und $ sind jeweils auf den 
Intervallen I; konstant. Aufgrund von (2) ist damit auch klar, dass D 
auf diesen Intervallen jeweils affin-linear ist. 


4. Für a < zı ist offensichtlich A(a) = -n und S(a)=X :=x1+::'+&n- 
Nach (2) also D(a) = X — na. Damit fällt D streng monoton auf Io. 
Für a > x, hingegen ist A(a) = n und S(a) = -X, also D(a) = 
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—-X + na. Sprich D ist auf /„ streng monoton steigend. Nach (1) ist 
D stetig, nimmt also auf dem Kompaktum [xı,x„] ein Minimum an 
(siehe [Barner, Flohr, Analysis I] Kapitel 7.3). Sei nun me [xı, „| ein 
solches Minimum, d.h. für allea € [xı,xn] gelte D(a) > D(m). Ist nun 
b>0, dann folgt 


D(z1-b) = X -n(cı-b) = D(xzı)+nb > D(zı) > D(m) 


D(zan+b) = -X+nlımn+b) = Dim)+nb > D(an) 2 D(m) 


Es ist also D(a) > D(m) auch für a außerhalb von [zı, zn]. Sprich das 
Minimum in [xı, „| ist bereits ein absolutes Minimum von D. 


. Seiennunl<r<s<n dann werden wir folgende Identität benötigen 


S(z,) - S(z,) = > X > _ > x; + > 2 


CÜ>Lr Ltr Li>Ls Li<Xs 
- (Ea-2a)+(2=-% 
Ü>Er Ci>%s Li<ts Li <tr 
= ) + ) uü=2 ) Ti 
2 <SE a 
. Sei nun k := #1 x1,...,2%n } die Zahl der verschiedenen Werte unter 
den x; und seinen uı < ua < +: < u eben diese Werte (d.h. für die 
Mengen gilt {u1,...,ug}={Xı,...,2%n }). Dann setzen wir schließlich 


noch N; := #fiel...n | x; = u; }. Und damit folgt dann 


Au) = (Ni ++ N;) - (Nj41 ++ N;) 


. Sinunl<r<nmit x, <z,ıı, dann wählen wir je 1...k so, dass 
uUj-1 = %,. Und damit ist auch klar, dass u; = x,.+1 ist. Dann ist 


D(zr) - D(&r}1) = D(uj-ı) - D(uj) 
S(uj-1) - S(uj) + uj-1Alu;-ı) - ujAlu;) 


Und aus (5) erhalten wir offenbar aber S(u;-ı) — S(u;) = 2u;N;, also 


D(&,) - D(&r+1) 
2u;N; r Al) en u;A(u;) 


ji k 
= 2, N; +w1 |), MG - IN 
i=1 i=j 





3 k 
= Uj >,N- > N; 
i=1 


i=jHl 
3-1 k 
= 2u; N; + uj-1 > M-ilSN, Ui > N; 
= er 
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3-1 k 
-14, 3 ,N-WN;+% > N; 
i=1 


i=j+1 
3-1 k 
= (uj-ı - u) >Ni- > N; +N; 
i=1 i=j+1 
j-l k 
= (ds = uj) >,N = >,N 
i=1 i=j 


— (a _ w)Alus=r) = (&r - %r41)A(r) 


8. Nach (4) besitzt D ein absolutes Munimum m € [xı, |. Angenommen 
esist m £ {x1,...,2n }. Wählen wir hel...n maximal, mit 2, <m 
so ist m € |&n,£nrıl < In: Nach (3) ist D in einer Umgebung von m 
affin-linear und damit differenzierbar. Also ist 


o 
j) 


D’(m) = A(m) = A(zı) 
Fiiele..n u, tre#liel:n) >} 
= h-(n-h) = 2h-n 


Mithin ist n gerade und h = n/2. Ferner gilt wegen A(ı,) = 0 = A(m) 
nach (3) auch D(x,) = S(zn) = S(zm) = D(m). Sprich x, ist ebenfalls 
ein absolutes Minimum von D. 


9. Nach (8) genügt es also noch den Fallm € {xı,...,x, } zu betrachten. 
Wir bezeichnen u; und N; wie zuvor in (7) und wählen j€1...k so, 
dass u; = m. Da D(m) minimal ist, folgt D(u;) < D(uj+ı) und damit 
(unter Verwendung von (7)) 0 > D(u;) —- D(uj+1) = (uj - ujrı)A(u;). 
Und wegen uj — uj+ı < 0 haben wir also A(u;) > 0, das bedeutet 


5 k 
>,Ni > > N; 
1 i=j+l 


Genauso ist D(uj-ı) > D(u;) und damit 0 < D(u;-ı) — D(u;) = 
(uj-ı — uj)A(u;-ı) also A(uj-ı) < 0 was bedeutet, dass 


—1 k 


N; < >,N 


Setzen wir A:= N] +---+N;-ı und B := N;41 ++ Nx so haben 
wir also die Gleichungen erhalten A+ N; > Bund A< N;+B, wobei 


o. 


II 

- 
& 

| 
o 


1 Sc SIA<STar == TAN; <SEArNgHL SS En 
ST UN U 
A N; B 
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Nun setzen wir h := n/2 für n gerade und h := (n + 1)/2 für n 
ungerade. Dann erhalten wir 2A= A+A< A+N,;+B=n und damit 
A<n/2<h. Andererseits ist2B=B+B<A+N;+B=n und 
damit auch B< n/2. Daraus folgt A+N;=n-B>n-n/2=n/2. 
Da A+ N; aber eine natürliche Zahl (und A die kleinste natürliche Zahl 
über n/2) ist folgt daraus auch A+ N; > h. Insgesamt haben wir 


A<h<AHN; 


1. Fall: ist A < h, dann ist he (A+1)...(A+N;) und damit x, = 
u; = m. Sprich x, ist ein absolutes Minimum von D. 2. Fall: ist A=h 
dann haben wir n/?2 <h= A<n/2 und damit A = n/2. Damit 
folgt auch N +B=n- A = n/2 = A. Nun bedeutet A= N; +B 
aber wiederum A(u;-ı) = 0 und damit D(u;-ı) — D(u;) = (uj-ı — 
u;)A(u;-ı) = 0. Wegen u;_ı = za = x, und m = u; folgt daraus also 
D(xn) = D(u;-ı) = D(u;) = D(m). Also ist x, auch in diesem Fall 
ein absolutes Minimum von D. 














Zum Gini-Koeffizienten: 


Satz 16.7: Seien die Werte 0 < xı <xa <.-- < am € R gegeben und 
bezeichne X := 2x1 +29 +:::+ x, deren Summe. Dann gilt für beliebiges 
kel...n stets die Abschätzung 





at 4% 2 k 
x = 





Beweis: Um dies zu sehen definieren wir die Summen a := rı +: +2, und 
b:= £k+1 +: +2. Dann ist also X = a+b und dafür i < k stets x; < xx gilt, 
haben wir auch a < kx;,. Und entsprechend wegen 2; > &grı für j>k+1 
ist auch b> (n - k)tg+ı. Damit haben wir dann a<kar < kartı < tb. 
Und daraus erhalten wir unmittelbar eine weitere Abschätzung 


(1-&)a = 2a < 2. k ne 


n 








Also a - (k/n)a < (k/n)b und damit a < (k/n)(a+b) = (k/n)X. Durch 
Division mit X erhalten wir also (21 + -+2,)/X =a/X <k/n. 
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Bemerkung 16.8: Wie immer ist x = (21,%2,...,2n) und wir bezeichnen 
die verschiedenen Zahlen unter den x; mit r; und die absolute Häufigkeit von 
r;mitn; := #{tel...n| x =r;}. Die relative Häufigkeit von r; ist wieder 
hi; := n;/n. Dann haben wir auch die absolute Merkmalssumme X; := nıri 
von r; eingeführt, ebenso die totale Merkmalssumme 


p n 
X = X = nir; = ya = nA(«) 
a) el 


i=1 i=i 


für die Konzentrationsanalyse sind auch die relativen Merkmalssummen Il; := 
X;/X = (n.r;)/X = (hir;)/A(x) von r; interessant. Und wenn man diese 
aufsummiert, erhält man die kumulierte, relative Merkmalssumme 


K= Ya = Iıtl 


Nach dem obigen Satz gilt insbesondere L, < Nk/n = Hr, d.h. die Lorenz- 
Kurve L: [0,1] — [0,1] hängt tatsächlich unter der Diagonalen durch. Wir 
werden im folgenden zwei Formeln zur Berechnung des Gini-Koeffizienten 
geben und beweisen. 


Satz 16.9: Mit den Bezeichnungen aus der Bemerkung oben, lässt sich der 
Gini-Koeflizient von x = (21,%a,...,2n) mit Hilfe der kumulierten, relativen 
Merkmalssummen berechnen: 


Beweis: 
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Wir werten zunächst einmal die Fläche unter der Lorenz-Kurve aus. Dazu 
zerlegen wir diese Fläche in Trapeze zwischen t = H;_ı und t = H,;. Diese 
haben also die Breite Hi — H;_ı = h, und die mittlere Höhe (L;_ı + L;)/2 
(siehe Abbildung). Insgesamt also: 


2 5 nic bhäi#lL 
A = Lii)di = > Trapezfläche, = 5 hi ee 
0 i=1 il 


Der Gini-Koeffizient ist nach Definition das 2fache der Fläche zwischen der 
Lorenz-Kurve A und der Diagonalen 1/2. Wir erhalten also die Behauptung 


1 re Be > 
R = (3-4) = rn, = NR: 
1= = 














Satz 16.10: Seien die Werte 0 <xı <xa <..- <xm € R gegeben und 
bezeichne X := x1+272+---+x,„ deren Summe. Dann ist der Gini-Koeflizient 
dieser Werte gegeben, durch 


a n+1 
ee + (2=)- z 
i= 








Beweis: Wir bezeichnen u; := k/n und vg := (zı ++ ar)/X. Und 
aus formalen Gründen setzen wir auch ug := 0 und vo := (0. Ferner sei 
L: [0,1] — [0, 1] die Lorenz-Kurve der Werte x;. Nach Definition der Lorenz 
Kurve ist L(t) für te [ur-ı, ur] gerade gegeben, durch 


Zee x 
m (Ur - %p-ı) + i%R-ı = (nt k)E + vr 


L(t) = 
Y Ur — Uk-1 X 





Die Fläche unter der Lorenz-Kurve lässt sich also Aufspalten in die Trapeze 
auf den Intervallen [ux_1, ur] berechnen. Deren Breite beträgt ur — ur_ı = 
1/n und deren mittlere Höhe ist (v._ı + v.)/2. Die Fläche wird also zu 








1 n Ur 
A = | za _ > L(t)dt 
9, k=1” Uk-1 
= — (vr-ı + % 
= > (ur — ur-ı) 
2 
k=1 
u Sa ir 1 
u 2X n 
k=1 
1 n k—1 A 
> Re 
= ax ( er 3 
kl: Al 
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Der Gini-Koeffhizient ist definiert, als 2mal die Fläche zwischen der Diagona- 
len und der Lorenz-Kurve. Da die Lorenz-Kurve (wie gesehen) stets unter 
der Diagonalen liegt, lässt er sich also wie folgt berechnen 


n k—1 
N 1 
2(3-4) = 1-24 = 1-22 (20 m+n) 


1 
= 1I- Sit Ra +) ++ tt] 


R 











nX 
1 i 1 s 
i=1 i=1 

1 an; Drei... Rn 

= 1-— (er BIyXH >30 ale, +oyi2im 
i=1 i=1 

on+l 2, 
u n nXx - 














Zur Regression: 


In diesem Abschnitt untersuchen wir den Zusammenhang zwischen den Grö- 
ßen x und ye R”. Zu jedem t € 1...n haben wir also einen Datenpunkt 
(zı | yı) gegeben. Im einfachsten Fall folgen die Punkte einem linearen Zu- 
sammenhang y = ax + b. Es geht also darum die Parameter a und b so 
anzupassen, dass sich die Gerade ax + b möglichst dicht an die Datenpunk- 
te anschmiegt. Dieses Problem wird im nächsten Satz präzisiert und gelöst 
werden. Danach werden wir das allgemeinere Problem eines polynomialen 
Zusammenhangs y = an” ++ aıx + ao lösen. Um dies zu bewältigen 
ist aber ein wenig mehr, als Schulmathematik, notwendig. 


Satz 16.11: Seien x = (21,%32,,2n) und y = (yı,Y2,:..,Yn) € R”. Dann 
suchen wir die Regressionsgerade, g(x) = ax + b, die den folgenden Abstand 
minimiert: 





n 


da,d) = ‚| (ax +d- y)" 


t=1 


Enthält x mindestens 2 verschiedene Werte, so lässt sich dieses Problem 
eindeutig lösen, durch 





„_ eln 
(2)? 
b = Aly)-aAla) 
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Beweis: Da die Funktion Rt — Rt : x +> x? echt ordnungserhaltend ist, 
genügt es die Funktion q(a,b) := d(a,b)? zu minimieren. Ferner bezeichne 
X = ),,0 = nA(x) und Y := ),y: = nA(y) die Summe der x; bzw. yı. 
Dann rechnet man nach, dass 


n 


q(a,b) = > (axı +b- Ye)" 
t=1 


= > (a’zz io yr)” —2 > (abzı  axzıyı — byı)” 
t=1 t=1 
= (z|x)a® +nb? + (y|y) +2Xab - 2(x | y)a— 2Yb 


Damit q(a,b) minimal wird, müssen die Ableitungen nach a und nach b 
verschwinden. Die Ableitung nach b liefert 0 = &,q(a,b) = 2nb+2Xa-2Y, 
also Xa+nb = Y. Dividieren wir diese Gleichung noch durch n erhalten wir 


Hgla,b)=0 — Alz)a+b= Al(y) 


Die Ableitung nach a liefert 0 = öugla,b) = 2x | z)a + 2Xb - 2(z | y), 
also (x | »)a+Xb = (z | y). Dividieren wir auch diese Gleichung durch n 
erhalten wir 


d.9(a,db)=0 — Al(a?)a+ A(z)b = Alzy) 


Wir haben bereits (aus der ersten Gleichung) b = A(y) — A(x)a. Setzen wir 
dies in die zweite Gleichnung ein, so erhalten wir 


Ala?)a+ Alz)(Aly) - Alz)a) = Alay) 


(Aa?) - Ala)?)a = Alay) - Al@)A(y) 


Setzen wir die Verschiebungssätze ein so haben wir also o(x)?a = o(z | y) 


erhalten. Nach Voraussetzung sind die x; nicht konstant, also o(x) # 0. 
Durch Division durch o (x)? erhalten wir damit die Behauptung 


oz |y) 
o(x)? 





a = 


Dass die Funktion g(a, b) tatsächlich ein Minimum an dieser Stelle (a, b) hat, 
erkennt man an der Determinante der Hesse-Matrix (siehe [Friedberg, Insel, 
Spence, Linear Algebra] Theorem 6.31) 


Oadag(a,b) - Höng(a,b) — (9.q(a, b))” = ... = 4Anole)” >0 
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Bemerkung 16.12: Das Problem der linearen Regression wurde also ge- 
löst, indem man den (mit da gemessenen) Abstand zwischen den Punkten 
(g(zı),g(&2),...,g(£&n)) und y € R” minimiert hat. Dies führte auf die 
Gauss’schen Normalengleichungen 


A(z)a+b 
A(x?)a + A(x)b 


| 
SS 
Ss a 


Die erste dieser beiden Gleichungen enthält, dass die Regressionsgerade g(x) = 
az + b durch den Punkt (A(x) | A(y)) € R? der arithmetischen Mittel läuft 


Aly) = Ala)a+b = g(Ala)) 


Neben dieses geometrische Bild gesellt sich aber auch ein statistisches Bild: 
bezeichnen wir die Abweichung bei der linearen Approximation mit 


u := Yy-g(&:) 


Dann stellt man zunächst fest, dass die mittlere Abweichung A(u) bei der 
linearen Regression verschwindet, denn man rechnet nach, dass 


Alu) = Aly-(ax+b)) = Aly) - (aA(z)+b) = 0 


Damit ergibt sich dann, dass - indem wir d(a,b) minimiert haben - gleich 
auch die Varianz o(w)? minimiert wurde, denn man sieht 


>? 2 Al) = Alu)? = Al) e "dla, 6)? 


Satz 16.13: Seien wieder x, y € IR” und bezeichne y = ax +b die zugehörige 
Regressionsgerade. Sei weiterhin u; = yı — (axı + b) die Abweichung von yı 
von der Geraden. Dann besteht die folgende Streuungszerlegung 


o(y”? = ol(ax+b)?+o(u)? 
Und für den Korrelationskoeffizienten r gilt schließlich noch die Beziehung 


_ el „2 _ law +5)? 
rd Tr 


Bemerkung 16.14: Der obige Satz sagt anschaulich, dass sich die Streu- 
ung von y aus zwei Teilen zusammen setzt: (1) durch den Zusammenhang 
y*= ax +b wird die Streuung der x zu einer Streuung der y übertragen. 
Dies ist also der erklärte Teil der Streuung. (2) die Reststreuung die von der 
Abweichung herrührt und nicht erklärt wird. Der Korrelationskoefhizient r 
misst also den erklärten Anteil an der Streuung der y und ist somit und ist 
somit ein Maß für die Glaubwürdigkeit des Zusammenhangs. 
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Beweis: 
1. Der Übersichtlichkeit halber zerlegen wir den Beweis in mehrere Teil- 
schritte. Als ersten Schritt beweisen wir eine Aussage über ar+b e R” 


A((ax+b)’) = A((ax + b)y) 


Denn A((ax + b)?) = A(a?x? + 2abx + b?) = a?A(x?) + 2abA(x) + 52. 
Diesen Ausdruck spalten wir geschickt auf und wenden die Gauss’schen 
Normalengleichungen (16.12) an 


A((ax + b)?) a(aA(z?) + bA(z)) + b(aA(x) + b) 
aA(xy) + bA(y) 


= A((ax + y)y) 


2. Mit Hilfe von (1) und der Tatsache dass A(u) = 0 ist, können wir dann 
auch die Varianz der Abweichungen u € R” mit dem Verschiebungssatz 
(16.4) umrechnen, zu 


o(u)” = Al(y-(ax+b)) y) 

= Aly? - 2(ax + b)y-+ (ax + b)?) 

= A(y?) —- 2A((ax + b)y) + A((ax + b)?) 
= A(y?) - 2A((ax + b)?) + A((ax + b)?) 
= A(y?) — Al(ax + b)?) 





3. Nachdem wir in (2) die Varianz von u berechnet haben, können wir 
mit Hilfe von A(ax +b) = aA(z) +b = A(y) die Streuungszerlegung 
recht leicht nachrechnen: 


o(y)?-olu)” = Aly?) - Aly)? - Ay?) + Al(ax + b))? 
= Al(ax +b))* - A(y)? 
= Al((ax +b))? - A(ax + b)? 





= olax +b)? 


4. Als nächstes benötigen wir wieder eine Hilfsaussage für die Kovarianz 
zwischen x und y, dieses Mal 


s@|y) = olw|axr+y) 


Denn setzen wir die Gauss’schen Normalengleichungen auf den Ver- 
schiebungssatz der Kovarianz an, so finden wir 


ow|y) = Alay) = Al) Aly) 
= (aA(2?) + bA(z)) — A(z)A(ax + b) 
= Alz(ax +b)) - A(z)A(az +b) 
= o(zlaxr+b) 
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5. Und mit Hilfe von (4) und der Streuungszerlegung können wir schließ- 
lich auch die Identität für den Korrelationskoeffizienten nachrechen: 


o(z)’o(y)? 


= Pate |y) 


o(y)’r? ne o( Y oz | y)” 





o( 
= aol« | y) 
ao(x | ax + b) 
blac+b)-o(b| ax +b) 
blax+b) = o(ax + b)? 





o(ax 
o(ax 











Die letzte Gleichung besteht, da durch die Konstanz von b = (b,b,...,b) € 
R” die Kovarianz o(b | ax + b) = 0 verschwindet (siehe (16.4)). 














Satz 16.15: Seien N eine beliebige Menge, 1 < m, ne IN und weiterhin 
x = (21,22,...,%n) € N” und y = (y1,%,...,Yn) € R” beliebig. Zu jedem 
wie 1l...m sei ferner je eine Funktion f; :2— R gegeben. Damit definieren 
wir dann die (n x m)-Matrix 


fılzı) ml) 


Mit A* bezeichnen die transponierte Matrix von A. Sei nun weiterhin das 


Tupel a = (a1,a2,...,G4m) € R”" vorgelegt, dann definieren wir die Funktion 
Ja und führen damit auch die Abstandsfunktion d ein 


fa: 2-R: zo) fe) 
k=1 





d: R">R:oa» ala) - m)? 


i=1 


Besitzt dein Minimum in a, so sind notwendiger Weise auch die Gauss’schen 
Normalengleichungen erfüllt, die da lauten 


A’Aa = Ay 
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Beweis: Da die Funktion Rt — Rt : x +> x? echt ordnungserhaltend ist, 
genügt es anstelle dnur q := d? zu minimieren. Notwendig für ein Minimum 
von qinaist, dass a ein kritischer Punkt von q ist (vergleiche [Barner, Flohr, 
Analysis II], Kapitel 14.4). Das heißt für alle je 1...m gilt 


en 2 
& ar fr(zi) — ») 
k 


n 


d;gla) = 2X) 


1 


o 
| 


=1 


325) = ar fr(zi) — ») 
i=1 k=1 


2), Fila) la) - 2) Fa) 
wi. i=1 


Nach Definition ist ax = fr(:), also af, = fj(xi). Mit etwas Konzentration 
sieht sieht man damit, dass der r-s-te Koeffizient der (m x m)-Matrix A*A 
gegeben ist, durch 


[A*Al;; = Ih) Flo) 
i=1 


Wir können dies in die obige Gleichung einsetzen und erhalten damit nun 
Ayl; = I, hka)u = Dam [AAl;; = [A*Aa], 
i=1 k=1 


Da dies aber für alle je 1... m galt, stimmt die Gleichung A*Aa = Ay also 
auch im Sinne von Tupeln. Dies war aber gerade die Behauptung. 














Satz 16.16: Seien nun die Potenzfunktionen fi :R> R:x + x’ gegeben 
(wobei i € 0...m). Ist a = (ag,Q1,...,Am) € Rt! dann ist f. also gerade 
das Polynom fa(t) = amt” +: :+a12 +ao € Rfx]. Sind nun noch die 
x; € R (wobei i € 1...n) paarweise verschieden und ist m < n, dann ist 
die ((m +1) x (m + 1))-Matrix A*A stets invertierbar und damit sind die 
Gauss’schen Normalengleichungen stets lösbar. Es ist also 


a = (A'A) "Ay 


Beweis: In einem ersten Schritt zeigen wir, dass A injektiv ist: nehmen wir 
also an, a läge im Kern von A, das hieße 


ao +tamXtıt+t ‘+ QmET falzı) 


aa+qaılnt + Ama Sale) 


Das Polynom f. hat also die Nullstellen xı bis x„. Nach Annahme sind diese 
verschieden, so dass f„ mindestens n Nullstellen hat. Andererseits hat fa 
höchstens den Grad m. Insgesamt erhalten wir also 





deg(fa) <m<n< #I/IreR| faule) =0} 
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Damit hat f. mehr Nullstellen als sein Grad erlaubt und es folgt fa = 0 
(siehe [Adkins, Weintraub, Algebra] Corollary (2.4.7)). Das heißt aber nichts 
anderes, als a =0 € R”+! und damit ist A injektiv. Im nächsten Schritt 
zeigen wir, dass A* A positiv definit ist: zunächst ist A* A symmetrisch (klar) 
und positiv, wegen 


(A*Aa|a) = (Aa|Aa) = Aal? > 0 


Angenommen (A*Aa | a) = 0, dann wäre also || Aa||= 0 und damit selbst 
Aa=0. Wie gesehen folgt daraus aber wiederum a = 0 und damit ist A*A 
sogar definit. Insbesondere ist 


det(A*A) > 0 


[klar: A* A ist symmetrisch, also diagonalisierbar (vergleiche [Friedberg, Insel, 
Spence, Linear Algebra], Corollary to Theorem 6.29). Die Determinante ist 
also das Produkt der Eigenwerte. Und wegen (A*Aa | a) > 0 sind alle 
Eigenwerte echt positiv]. Mithin ist A* A invertierbar. 














Bemerkung 16.17: Der vorangegangene Satz erlaubt also nicht nur lineare 
Regressionen auszuführen, sondern Regressionen mit Polynomen beliebigen 
Grades. Sind also die (paarweise verschiedenen) Stützstellen x1,...,%n €R 
und zugehörigen Höhen yı,...,Yn € R gegeben, so gibt es ein eindeutig 
bestimmtes Polynom f(z) = am2”" +" +aıx +ao € R|x] (wobeim<n), 
das den Abstand 





n 


dla) = >.) - yi)? 


i=1 


minimiert. Und die Koeffizienten dieses Polynoms lassen sich berechnen, in- 
dem man die Gauss’schen Normalengleichungen löst, d.h. man berechnet 


a = (A'A) Ay 


wobei A die folgende Matrix bezeichnet (man bemerke, dass im Fallm = n—1 
hier gerade die Vandermond’sche Matrix zu stehen kommt) 


1 aı 2 
A 
1 &n au 
Zur Zeitreihenanalyse: 
Wir betrachten k Saisons ö = (1,2,...,k). Diese Folge von Saisons wird 


m-mal hintereinander durchlaufen. Insgesamt betrachten wir also n = km 
Zeitpunkte t = (1,2,...,n), wobei 
Zeitpunkt | 1 | 2 | ... | k | 1+k | z= | k+k | 1+2k | Ze In 
Saison, 1.12] =] 2 er] 8, 1 ee] 





sl 


Wir können die Zeitpunkte also durchzählen, mit t=i+jk wobeiiel...k 
und j € 0...(m — 1) läuft. Dabei gibt i die Saison und j die Zahl der 
vergangenen Zyklen an. Zu jedem Zeitpunkt t ist nun ein Wert y; gegeben, 
y= (yı,Y2,::.,Yn) € R”. Dann suchen wir eine möglichst gute Näherung 


Yirjk 7 alitjk)+b+Si 
wobei a,bER und s = (sı, 52,...,5,) € R*. Doch bevor wir das Problem 


der besten Näherung in Satz (16.19) lösen, geben wir zunächst eine verein- 
fachte, etwas schlechtere Approximation an: 


Satz 16.18: Seit = (1,2,...,n) und y= (y1,%2,:.:,Yn) € R” und bezeich- 
ne y= at + b die zugehörige Regressionsgerade. Dann gilt 














n+l1l 
a = 
2 
ER | ua 
alt)’ „= 75 
12 6 
a = 3 Als) 4) 
n-+1l 
b.= AW)z 
2 
ER 
o(at+b) = me 


Seinun n = km und bezeichne s; die durchschnittliche Abweichung von y: 
von der Approximation at+ bin der Saison ie1l...k,d.h. 


L 


M— 


= —_ (Yirsa - ( — a(i+ jk) +b)) 
j=0 


Dann lässt sich der saisonale Einfluss s; auch einfacher berechnen, vermöge 


1 

x n—k 
Gase (ei +b+ 5 ı) 
j=0 


m 





Beweis: Das aritmetische Mittel folgt sofort aus den Summenformeln (16.1): 
A(t) = (1/n)(n(n + 1)/2) = (n+ 1)/2. Und mit den Summenformeln finden 
wir dann weiter 


u 1 (An+l)(n+1n /(n+1\” 
ot = Af)-Al) = = z ( ) 


= ey) a ee 














6 4 
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Die Koeffizienten der Regressionsgeraden können wir nach (16.11) und dem 
Verschiebungssatz (16.4) damit berechnen, zu 

















= Ir = (Ati) - AdAW) 
4 (Au) - 4w) ” „Al ul) 
b = Al) - Alla = A) "H 


Der interessanteste Teil ist die Berechnung der Varianz der Regressionsgera- 
den at + b mit Hilfe der Linearität des arithmetischen Mittels (16.4) 


A((at +b)”) — A(at +b)? 
= Al(a°t” + 2abt + p?) — (aA(t) + b)” 
= a?A(t?) + 2abA(t) +5? — a? A(t)? — 2abA(t) — b? 


n?-1 
= a? (A(t?) — A(t?)) = aolt) = 13 a” 


o(at + b)? 





Es bleibt nur noch die Formel für die saisonalen Einflüsse nachzurechnen. 
Dazu führen wir Y; als Abkürzung für die Summe aller y:, die zur Saison i 
gehören ein, d.h. Y; := >; Yirjk- Damit gilt dann 

















m-—1 m-—1 
1 1 1 
Si en (virsr - ( ali+jk)+b)) = nn > (a(i+ jk) + b) 
j=0 j=0 
m-—1 
a Ei | | k (m-1) 
— Yı dia 2: = fi (ai + b) a 5 
—1 

= Y; — (ai +b) an = -Y; ( 5 a) 














Satz 16.19: Sei t = (1,2,...,n) und y = (y1,%2,:::,Yn) € R”, wobei 
n = mk. Wir bezeichnen das arithmetische Mittel der y:, die zur Saison 


ie1...k gehören, mit A,, formal 


{ m-—1l 
ES Yi+jk 
m — 


Dann suchen wir a, bE Rund s = (sı,52,...,5,) € R* so dass wir eine 
möglichst gute Approximation y: & at+b+-s; erhalten. D.h. wir minimieren 
den folgenden Abstand: 





ie 


k m- 
d(a,b,s) = „|, >, (ali+sk)+b+ 5 - Yirjk)” 
i=1 2 
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Ferner soll das arithmetische Mittel der s; verschwinden A(s) = 0. Die Lö- 
sung dieses Problems ergibt sich zu: 














12 6 12 
=; A; 
a k2 ( ) n+k ( ) Ka = 
n-+1l 
b = Aly) 5 
is; = A-Aly) + c= i)a 


Beweis: Eigentlich ist b überflüssig, da der konstante Anteil ja auch in 
die saisonalen Einflüsse s; integriert werden kann. Deswegen betrachten wir 
zunächst: d(a, s) := d(a,0, s). Wie üblich (da x ++ x? ordungserhaltend ist) 
genügt es q(a, s) := d(a, s)* zu minimieren. Wir berechnen also: 


ib 


M-— 


2 
qla,s) = ali+jk)+ Si -— Yitjk) 


NE 


II 

un 
©. 

il 


| 
—1 


3 


| 
3 


II 
nun 
©. 

il 
oO 


(ar(i+jk)” +57 + Yarzk) 


I 


+2 (as;( i+jk) — ayirjk(i + jk) - SiYi+jk) 


I 


Il 
un 


m— 
ı 3 


Wir vereinfachen nun die einzelnen Terme in diesem Ausdruck. Die meisten 


Vereinfachungen sind offensichtlich, die nicht offensichtlichen führen wir aus: 


m-—1 


2 Eh) 





;2 SD 2 (2n + zu + Un 2 


S: 


il 


o. 
I 


k m-1 k (m — 1)m 
2 Yastitik) = 20) (mir Fk) 
i=1 j=0 = 
k k 
= 2am) is; + an(m —1) 23% 
i=1 


Setzen wir diese Ausdrücke wieder in g(a, s) ein, so wird dieser Ausdruck zu 





(2n +1)(n+1)n 
q(a,s) = 5 a? Dat 3 Ham Di 


k 


+an(m —1) > Si 2a) ty = 2), Si > Yi+jk 
t=1 el j=0 


i=1 
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Damit dieser Ausdruck minimal wird, müssen die partiellen Ableitungen 
nach a und allen s; verschwinden. Werten wir zunächst die Ableitung nach 
a aus, Öug(a,s) = 0, erhalten wir 


k 


k n 

2 1 1 

ER Au I ' 2m) is +nim-1)) 5-2) ty = 0 
i=1 i=1 tl 








k n 
(2n+1)(n-+1) 2i _ 
3 a- ) z +m-1l)s; = 2 > tyı 


i=1 


Nun werten wir auch die Ableitungen nach s; aus, Ö,,g(a, s) = 0, aus diesen 
erhalten wir (für jedesöe1...k) die Gleichung 





m-—1l 
2ms; + 2ami + an(m — 1) DI yesk = (0 
j=0 


Bene 


Wir haben das lineare Gleichungssystem also bereits separiert und können 
diese Ausdrücke für s; wieder in die obige Gleichung einsetzen. Dadurch 
erhalten wir eine Gleichung, die nur noch a entält 


ent, (2 ef ı) (A- (+25) a) = 2307 


i=1 





Der Übersichtlichkeit halber betrachten wir einen dieser Terme wieder iso- 
liert. Wir ersparen uns die Details der Rechnung und erhalten 


D(i+n-i) (a.- (++°5#).) 


2 2k+1)(k+1)k 
6 


k(k+1) (nk) 


(m-1) PERL PERL 








9 k 
= iA + (m-1kAWy) 
i=1 


1 
ae )ı 





(m —1) 


k 
IS, Dies 
= SB ze +6n+k?+2)a 


Diesen Ausdruck können wir schließlich in die voran gegangene Gleichung 
einsetzen und damit nach a auflösen. Man rechnet leicht nach, dass 


k n 

1 2 

in’ - kat 2 iAtln-k)Ay) = 2) ty 
i=1 t=1 
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Wir haben also das a gefunden, dass unser Problem löst. Da aber auch das 
arithmetische Mittel der s; verschwinden soll, fangen wir dieses in b auf: 


Mi I nk 
b := 93 — 2 (A-(+"7°)e) 


1k(k +1) n—k 
= A 
ee 3a 
Be! 


2 








= Ay) 


Im folgenden nehmen wir also s} := s; — b, dann ist klar, dass das arithme- 
tische Mittel der s’ verschwindet: A(s}) = A(s; — b) = A(s;) —b=0. Damit 
bilden also a, b und die s’ eine Lösung des Problems, wobei 


1 
sh = 5 -b = A-Aly)+ (3 i)a 

















Zu Klassierungen: 


Definition 16.20: Ist $ eine beliebige Menge, dann heißt eine Menge S = 
{S;|i € I} von Teilmengen $S; C Seine Partition oder auch Klassierung 
von S, falls gilt: (1) keine der Klassen $; ist leer, d.h. für alleie I gilt 9; #9, 
(2) je zwei verschiedene Teilmengen aus S sind disjunkt 


iyelmii2i = 50, =V 


und (3) die Klassen $; überdecken S, d.h. zu jedem se S gibt esemieI 
mit x € S;. Oder anders ausgedrückt: die Vereinigung aller Teilmengen S; 
aus S ergibt wieder die ganze Menge S, formal 


Se ls 


viel 


Bemerkung 16.21: Im folgenden sei stets 5 eine Menge von Merkmals- 
trägern, und x = (21,232,...,%n), wobei x € S fürt €e 1...n. Ferner sei 
S8=151,Sa,..., Sm } eine Klassierung von $. Dann bezeichnen wir die ab- 
solute bzw. relative Häufigkeit der Klasse S; mit 


n = #l1tel...n|aeS;} 
h; = u 
n 


Da S eine Klassierung ist finden wir nn +na+:--+nm = n oder anders aus- 
gedrückt hı +ha+::-+ hm = 1. Den bisherigen, unklassierten Fall erhalten 
wird durch die einelementigen Klassen S; := {s; }, wobei die s; wieder die 
verschiedenen Werte unter den x; sein sollen. 
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Beispiel 16.22: Zumeist ist $ = [a,b| ein halboffenes Intervall und wir 
führen die Klassen $; = [a;-ı,a;| ein, wobeii€1...m und 


a=mw<a <..<m-b 


Die Klassen $; sind dann nach Konstruktion (als halboffene Intervalle) dis- 
junkt und $S = S1 U Sa U---U Sm folgt daraus, dass ao = a und am = b sind. 
In diesem Fall benutzen wir wieder die Klassenmitten s; und die Klassen- 
breiten w; 


ze G-1ı+% 
T er 2 
w 7 GO W-1 


Die Standardannahme lautet nun, dass alle x € 5; dieselbe Häufigkeit haben, 
innerhalb der Klasse S; besteht also die Häufigkeitsdichte 
hi 


* kg, 
he je 
Wi; 


Satz 16.23: Sei $ = [a,b[ klassiert, durch S; = [a;-ı,a;[, wie in (16.22) 
beschrieben. Und sei x = (21,23,...,%n) wobei ze Sfürtel...n. Dann 
gilt für das (klassierte) arithmetische Mittel A*(x) bzw. für die (klassierte) 
Varianz 05(x) 


Are) = hisds = > his 
a! il 
re ul (s- A*(z))? ds 
a1 


m 


= hilsi _ A*(2))” + uf 


i=1 
i=1 
Beweis: Bekanntermaßen ist s?/2 eine Stammfunktion von s, also können 
wir das Intergal berechnen, durch 


A; ee & [077 e 1 R 1 5 
h; Ss ds — h; S ds = h; 4; — =; 1 
Q;—1 G-1 2 2 


2 2 

hi a, = _1 5; Gt Wi-1 nis: 

= = re a iS; 
a, — W-1 2 2 
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Durch Summation über i (von 1 bis m) ergibt sich also die Identität für das 
klassierte arithmetische Mittel. Zur Abkürzung sei nun € := A*(x). Für die 
Varianz müssen wir ganz analog das Integral auswerten: 


| (s-M?ds = ZU (5? — 258 + 22) ds 
W—1 a—1 


1 
:(6 (a a1) 7 (a; a_ı) + 7° (a; «-)) 





Nach Definition ist w; = a;—a;—ı und damit sieht man leicht, dass a?-—a?_, = 
2w;s! und a? —a}_| = wi(a? +a;_1a; +a?_,). Nutzt man nun noch aus, dass 
h} = h;/w;, so gelangt man zu der Gleichung 





a; 
Zu (s-Z”ds = hi E (a7 +4_19; a1) 2%; + ) 
ai-ı 











1 
= hi (z(@ +a-ı u) - (+ »”) 





1 1 1 iz 
= hi (150 + za-ıa 5-1 + (s} »°) 


12 6 
=, PM, er + (s} Zu =)” 
12 T T 


Die Varianz erhält man durch Summation dieser Ausdrücke über i (von 1 
bis m). Sortieren wir diese Summe entsprechend um, so finden wir also 


0)? = til 2) +5), hu 
i=1 i=l 














Satz 16.24: Sei $ = [a,b] klassiert, durch S; = [a;-ı,a;|, wie in (16.22) 
beschrieben. Dann definieren wir die empirische Verteilungsfunktion H als 
die stückweise affine Funktion zu den Stützstellen (a; | H;) (mitie1...m). 
Die Funktion H:R — [0,1] ist also gegeben durch 


0 für s<ag 
H(s)={ Hı-ıtkhils- %-ı) für a-ı <s<a 
1 für 5 > Am 


Das j-te, (klassierte) Quartil Qi(x) (wobei j € 1...3) ist definiert, als die 
Stelle, an der H den Wert j/4 annimmt. Explizit lässt sich dies berechnen, 
durch (wenn ke 1...m mit H;,_ı <Jj/4< Hy) 


ara) = HJ) = ae 
k 
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Das zweite klassierte Quartil wird auch (klassierter) Zentralwert genannt 
Z* = Q5(z). Und ist k € 1...m mit ax-ı < Z*(&) < ax so gilt für die 
(klassierte), absolute, mittlere Abweichung 


oil) := Jh / 
i=1 4 
Wk 


z Dhilet - 2a) h) Ir = Z@)| 
2 
i=1 


"Is Z*(x)| ds 


i—1 





Beweis: Wir beweisen zunächst die explizite Darstellung der empirischen 
Verteilungsfunktion. Für s < ao ist H(s) = 0 klar, ebenso H(s) = 1 für 
5 > Am. Sei also ax_ı < s < ax, dann liegt H(s) auf der Geraden durch 
die Punkte (a;_ı | H;_ı) und (a; | H,). Die Steigung der Geraden ist also 
(Hr — Hx-ı)/(ar — axr-ı) = hr/wr = hi. Die Gerade und damit H in diesem 
Bereich ist also wie behauptet hi(s — ax-ı) + Hr-ı. Wir berechnen damit 
die Quartile. Nach Definition gilt 


3/4 


H (Q%(e)) = Hr-ı+ hi (Qile) - -ı) 
H-MK-Klamı-9%) = R-hlwutarı- 0) 
Hr — hi, (ax - Q}) 


Lösen wir diese Gleichung nach Q%(x) auf erhalten wir also wie behauptet 
@Q5(2) = ar - (Hr - 5/4) /hj,. Es bleibt also noch die Formel für die mittlere, 
absolute Abweichung zu beweisen. Zur Abkürzung setzen wir € := Z*(r). 
Seinun kE€1...m so fixiert, dass a._ı ST < a;. Zunächst betrachten wir 
aber den FallX < a;-ı, dann ist 


A; a; 
| ls-zZds = Zu s—-Tds 
G—1 W-—1 


h; 
= — (wi -Fw) = hi(s - 
= (s;w; — Zw;) (s; - £) 





Ganz analog (nur mit negativem Vorzeichen) ist der FallT< a,;. Insgesamt 
erhalten wir also (in dem Fall dass TE € Ja;-ı, a;l ist) 


a; 
| Is-zlds = hilst - =] 
G-1 


Es bleibt also nur noch den Fall £ € [ar-ı,ar] zu betrachten. In diesem Fall 
zerlegen wir das Integral in zwei Teile 


Ak T Ak 
/ |s - Z| ds = / 7 sds+ | s— üTds 
Ak—1 AR—1 z 


T Ak 
= = | sds+ | sds - Ela, - £) 


k—1 T 
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2 2 


Ba 2 2 SER 
T a1 NE 
2 2 
2 2 
a,_ı + 


2 





= M-Tlas_ı+0) 





= R-Ms+si-s+ 


2 2 
= 2 a, ı + 





1 
= (T- s,)” + Ur 


Die letzte Gleichung —s{+(a}_,+a7)/2 = w;/4 lässt sich leicht nachrechnen, 
ist aber nicht offensichtlich. Schließlich haben wir alle Fälle behandelt und 
können die absolute, mittlere Abweichung auswerten: 


ID7 1 Is- zlds 

i=1 1 
a; Ak 

af Is last; | Pen 
Q—1 a 


(2) 














i#k k—1 
= Yhlsf -% + (&- 0)” + zul 
i#k 
n 1 
= Yihlf-z- hal - m + (€ sk) + zur 
1 
= Y,hils?-= +5) hulst — El + |E - sk? 
gl 
2 2 
= Sulz +5 -R- tl) 
N 














Satz 16.25: 

Sie $ = [a,b[ klassiert, durch S; = [a;_ı,a;|, wie in (16.22) beschrieben. Die 
Lorenzkurve entstand (im unkalssierten Fall) durch Verbinden der Stütz- 
stellen (H; | Lx). Da aber die kumulierte Häufigkeit im klassierten Fall 
aber stetig wächst (siehe H in (16.24)), muss man zu einer Kurve der Art 
(H(s) | L(s)) übergehen. Dabei muss L wieder die relativen, kumulierten 
Merkmalssummen angeben. Aufgrund der Standardannahme lautet die pas- 
sende Übersetzung (für a._ı <s<a;) 





x =: nANe) = Ynisi 
i=1 

ı (a } 

L(s) := (mir fl a) 
k—1 2 

1 AR-1 

_ his! + h* 
Aa) = U 9 
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Als Funktion L* : [0,1] — [0,1] ist die klassierte Lorenzkurve also gegeben, 
durch L* := LH!. Konkret bedeutet dass (für H,_ı <u< H,}) 


Ge Hre 


I*(u) = L(s) wobei s = a-ı+ pr 
k 


Damit ist L* dann eine stetige, stückweise quadratische Funktion, genauer 
lässt sich L* (für H;-ı <u< Hr) berechnen, als L*(u) = 


k—1 2 
1 = Hr-ı Hr-ı 
= EI re) 
7 (2) en (a 1 hr )+% iS; + ahr Ar 1FR-1 


Der Gini-Koeffizient ist wieder die doppelte Fläche zwischen der Diagonalen 
und der Lorenzkurve. Formal also 








1 1 
RR = 2 u-I*(u)du = u L*(u) du 
0 0 
2 = ) 2 
2 BL: +2) ron) u“ w; 


Beweis: 
Wir rechnen zunächst die angegebene Formel für die kumulierten, relativen 
Merkmalssummen nach. Sei also a;_ı <s< a;, dann ist 


k—1 
1 s 
L(s) = T a. ” S 
; —1 
1 7: Ss 
= his; + hi, f r dr 
Are) & bi Ak—1 er 


k-1 2 2 
1 s°—-a_1 
=. - [Nut 
A*(®) v = ü 2 


Für die angegebene Formel der klassierten Lorenzkurve muss man sich ein 
bisschen mehr anstrengen: nach Definition ist L*(u) = L(s) wobei s = 
Hu) = (u— Hy-ı)/hi; + ax-ı. Wir berechnen also vorab 


2 
u— Hr, 
= (ee tan) 

















hr, 
2 
u— Hr Zar 
= ( a ) + (u Hy-1) + a2, 
h; h; 
2.2 2 
«5 %-ı (Hrn) 
= 5 — Hr 
hi —, 2m, + ax-ı(u - Hx-ı) 
2 2 
U =2H a rd 
= F aR_ — Hr 
Ohr Ak ı(u k 1) 
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1 2 Hx-ı Hf_ı 
= Ex u+4 a,_1Hr_ 
an + (mi hr k-1Hk-1 


Aufgrund der oben bewiesenen Formel für L(s) und der soeben bewiesenen 
Formel setzt sich die klassierte Lorenzkurve also zusammen, zu L*(u) = 


k—1 2 
1 4.8 Hrx-ı H;-ı 
ı _-1- ) his; + —— — axr-ıHk- 
A) en (a 1 hr )e+I iS; + ahr Ar—1k-1 


Wir werten also den Gini-Koeffizienten aus. Für diesen haben wir 2 weitere 
Formeln angegeben, von denen die erste unmittelbar einsichtig ist: 


1 1 1 
2 / u-L*’(u)du = 2 / udu-2 | L*(u) du 
0 0 0 
12-0? 1 1: 
-2/ L’(u)du = 1-2/ L*(u) du 
0 0 








R” 


2 





Nach dieser Formel genügt es also das Intergal über die klassierte Lorenz- 
kurve auszuwerten. Da wir die Lorenzkurve auch schon explizit berechnet 
haben, ist dies auch mit etwas Konzentration möglich: 


I ER / en 


HR 1 
= > U? + bu + Sp-ı + cr du 
k=1Y Ar-ı 2h,, 


( 

1 m H? nn HB’ H? se H?_ 

_ eeB| m 5 erh 
k=1 k 











> 


Dabei haben wir die folgenden Abkürzungen verwendet: b, = a,-ı- H;-ı/hi 
und c&£ = Sk-ı + H2_,/(2ht) — ax_ı HR-ı, wobei 


Man beachte dass daher 5, = Sk -ı + hrs; und Sm = A*(x) gilt. Nun ist 
aber H2 — H2_, = (Hr + Hx-ı)(Hr — Hr-ı) = (Hr + Hr-ı)hr und damit 


I=H, H 
tl - (1 —EE) (Ar + Hrı)hr 
3 hi 
1 
=>, (ar-ıhr = Hy-ıwr) (Fr + Hk-ı) 

H;_ı 
Ahr = |K-ıHt De ar_ıHkr-ı | hr 

k 


1 
= H-ıhr + 5 HR — 0x1 Hr-ıkr 
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Setzt man diesen beiden Gleichungen zusammen, so erhält man durch ele- 
mentare Rechung eine weitere Gleichung, die wir später verwenden werden 


Hi= 
EL 5 


H;_ 1 1 
ee +c.hr = <ap_ıhz _ 5Ar-ı Hrn + 5, _ıhr 


2 


Doch zunächst verwenden wir noch, dass H} — H}_, = (HZ + Hy Hx-ı + 
H?_,)(Hr — Hr-ı) = (H2 + Hr Hr-ı + H2_,)hx ist. Dies liefert 


3 3 
H; 2 H,_ı Wk 





= (MR HeHx-ı + HR.) 


Gh; 6 


Setzen wir all diese Formeln - für das Integral der Lorenzkurve und die 
einzelnen Summanden die darin vorkommen - zusammen, so finden wir 


[ L*(u) du 








u 


ı S(BE-HE, „HI-HE,, , 
WET 2 
1 


m 
>5 (ea + H; Ar-ı + HR.) 
Bi 


> 





> 


*(@) 


1 1 
+zar-ıhr u 5 Fr-ı Hrwr + Si-ıh) 





1 en 
(2) a 5 (RM + HR) 
= 


1 
+-ap-ıh, + Sl) 


> 


2 
































1 x /w 1 
7 (2) > ( 6 ht za-ıhr + Sl) 
Kl. 
1 2 hrwr hrax_ı x 
k=1 
I hrwr  hrar 
7Tay>Lle ur zur) 
k=] 
1 2 hr hrwR 
Ara) > 5 (25: hrar - 3 ) 
=! 
I. on 3 hrwr 
Ar (2) > cs (251-1 + 2hxs), — hrar + 3 ) 


An dieser Stelle verwenden wir nun hrs, — hrar = hr(ar-ı/2+ ar/2- ax) = 
hr(ax_1/2 — ar/2) = -hrwr/2. Setzen wir dies ein, so folgt 


I " 1*(u) du 








11h x Prwr |, hrwr 
Ta (25-1 me ) 
1 


Ch „  hrwr 
> E73 (251-1 + hrs, — 6 ) 
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hr. 
*(@) 





Il 
D| m 
N: 


h2 
078 1 + hrs.) — Dr 124°(z) 2 kKWk 








k=1 
Ne +) Doro 
Bere ru (x) == 
k=1 k=1 
u 1 n * ;) — 2m 


1 
RR = 1-2/ L*(u) du 
0 


— 1-Y hr ( ıt+2)+ un url 


k=1 














Zur Wahrscheinlichkeitsrechnung: 


Die allgemeine Behandlung der Wahrscheinlichkeitstheorie stößt auf ein paar 
unerwartete Widerstände - vor allem das Problem, dass es unmöglich ist jeder 
Teilmenge A von $=R eine sinnvolle Wahrscheinlichkeit P(A) zuzuordnen. 
Das ist zwar auch nicht nötig (denn nicht alle Teilmengen kommen als Freig- 
nismengen in Frage) führt aber zu einigen Komplikationen, auf die an dieser 
Stelle eingegangen werden soll. In Kapitel 12 haben wir die mathematische 
Exaktheit daher ein wenig vernachlässigt, dies soll nun aber nachgeholt wer- 
den. 


Definition 16.26: 
Sei $ eine beliebige Menge. Dann nennen wir eine Kollektion N C P(S5) von 
Teilmengen von 5 einen Mengenring auf S, falls folgendes gilt: 


SEN 
2) Ae2 — S\AeN 
83) ABen —= Außen 


Da wir den Schnitt zweier Teilmengen A und BC $ auch ausdrücken kön- 
nen, als ANB= S\((S\A)U(S\B)) und die Differenz B\A= Bn(S\A) 
ist, erhalten wir dann auch gleich die weiteren Eigenschaften 


(4) ABen = AnBen 
5) ABen — B\AeN 
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Beispiel 16.27: 

Offensichtlich ist 0 = P(S) selbst ein Mengenring. Dies ist auch der Fall, den 
wir in Kapitel 12 vorausgesetzt haben. Für $ = R müssten wir aber einen an- 
deren Mengenring verwenden, nämlich den Ring aller endlichen Vereinigung 
von Intervallen: 


2 = {Ih URU---UMm|neN, Ix Intervall} 

















Zur Erinnerung: ein Intervall ist eine Menge der Form I={seR|.«aDsDb}, 
wobei a und be R oder +0 sind und DO für die Relationen < oder < steht. 




















Definition 16.28: 

Sei $ eine beliebige Menge, und  C P(S) ein Mengenring auf $. Dann nen- 
nen wir eine Abbildung P der Form P:Q—R, die den Teilmengen A C $ 
(mit AeE N) ein Maß P(A) € R zuordnet, eine Wahrscheinlichkeitsfunktion, 
falls für alle A, Be N gilt: 


(1) P(5S) = 1 
2) P(A) >20 
(3) AnB=0 = P(AUB)=P(A)+P(B) 


Ist nun P:N2— R eine Wahrscheinlichkeitsfunktion auf $. Dann nennen 
wir P stetig, falls für alle absteigenden Folgen von Ereignismengen [d.h. für 
alle Folgen (A„) < Qmit Ao 2 Aı 2 As 2 ....] gilt: 


\A=B = JlimP(4)=0 
neN N—OO 


Satz 16.29: 
Ist P: P(5) — R eine Wahrscheinlichkeitsfunktion auf der Menge S, dann 
gelten weiterhin die folgenden Aussagen für alle Teilmengen A, BC S$: 


(4) P(Ö) = 0 


(5) P(A) = 1- P(A) 
(5) P(B\A) = P(B) — P(ANB) 
(6) P(AUB) = P(A)+ P(B)-P(AnB) 
(AG ıB- =: „PIA)S PB) 
Beweis: 


(5) Da A und A disjunkt sind (d.h. ANA = ß), erhalten aus Eigenschaft (3) 
1= P($) = P(AUA) = P(A)+P(A). Umgeformt also die Behauptung 
P(A)=1-P(A). 


(4) Aus (5) erhalten wir insbesondere P(P) = P(S) =1-P($S) =1-1=0. 


(6) Da A und A ganz S zerlegen, wird insbesondere auch B zerlegt, in 
B = BNS$ = BN(AUA) = (BNA)U(BNA). Mit Eigenschaft (3) also 
wieder P(B) = P[BNA)+P(BNA). Nun ist aber BNA = B\A, also 
P(B) = P(ANB)+P(B\A) und damit P(B\A) = P(B)-P(AnB). 
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(7) Wir zerlegen die Vereinugung AU B in drei disjunkte Teile, nämlich: 
AUB=(ANB)U(A\B)U(B\A). Mit Eigenschaft (3) ist also 
P(AuU B) = P(ANB)+ P(A\B)+ P(B\ A). Nach (5) können wir 
dies aber umschreiben, zu P(AUB) = P(ANB)+P(A)- P(ANB)+ 
P(B) - P(ANB) = P(A) + P(B) - P(AnB). 


(8) Wegen A C B können wir B disjunkt zerlegen, nB= AU(B\A). 
Mit Eigenschaft (3) erhalten wir also P(B) = P(A) + P(B\ A). Nach 
Eigenschaft (2) ist P(B\A) > 0, also P(B) - P(A)= P(B\A) > 0 
und damit P(B) > P(A). 














Definition 16.30: 
Sei 0 ein Mengenring auf S und P:N — [0,1] eine Wahrscheinlichkeits- 
funktion. Ist ferner X:5— RundxeR, dann bezeichnen wir die Mengen 


{X =r} = Ise8]|Xls)>= 
IX <er ee 1sE831X8)&8 
Dann heißt die Funktion X eine Zufallsvariable unter P, falls diese Mengen 


immer mögliche Ereignismengen von P sind. D.h. falls für alle x eR gilt, 
das {X =x}und{X<r} CN. Und in diesem Fall setzen wir 


P(X 
P(X 


) = P({seS$S|X(s)= 


ae Pises| Re) 


IA 


Satz 16.31: 
Sei P:N - [0,1] eine stetige Wahrscheinlichkeitsfunktion auf $ und ist 
X:5-— Reine Zufallsvariable unter P. Dann gilt für alex eR 


im p(X<z-.) = P(X<x)-P(X =) 


Nn—>XO n 


Beweis: 

Wir bezeichnen analog{X <r}:={se $S|X(s) <x}. Dann erhalten wir 
offensichtlich eine disjunkte Vereinigung {X <ı}= {X <z}U{X =r}. 
Damit ist also P([X <xz)=P(X <z)+P(X =x). Wir betrachten nun 


PiX<a)-P[X<z-1) 


= PIX=a)+P(iX<a)-P(X<2-1) 


PiX=a)+Pr({X<ei\exX<e-2}) 
= PiX=a)+P({sesie-1<Xe<a}) 
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Nun ist die Folge von Mengen A„ := {se S| x -1/n<X(s) <x} aber 
absteigend und der Schnitt über alle A„ ist leer [denn wäre s € A„ für alle 
n >21, so wärex-1l/n<X(s) <x und damit O0 <X(s) -x < 1/n. Da 
(1/n) aber eine Nullfolge ist, gibt es keine Zahl X(s)-x E R, die das erfüllen 
könnte]. Da P stetig ist folgt nunmehr P(A„) — 0 und damit 


PiX<a)-P(X<z-.) u BR 
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Kapitel 17 


Open Publication License 


I. CoPYRIGHT 
The copyright to each Open Publication is owned by its author(s) or designee. 


Il. SCOPE OF LICENSE 
The following license terms apply to all Open Publication works, unless otherwise explicitly 
stated in the document. Mere aggregation of Open Publication works or a portion of an 
Open Publication work with other works or programs on the same media shall not cause 
this license to apply to those other works. The aggregate work shall contain a notice 
specifying the inclusion ofthe Open Publication material and appropriate copyright notice. 
Severability: If any part of this license is found to be unenforceable in any jurisdiction, 
the remaining portions of the license remain in force. 
No Warranty: Open Publication works are licensed and provided äs is"without war- 
ranty of any kind, express or implied, including, but not limited to, the implied warranties 


of merchantability and fitness for a particular purpose or a warranty of non-infringement. 


III. REQUIREMENTS ON BOTH UNMODIFIED AND MODIFIED VERSIONS 

Any publication in standard (paper) book form shall require the citation of the original 
publisher and author. The publisher and author’s names shall appear on all outer surfaces 
of the book. On all outer surfaces of the book the original publisher’s name shall be as 


large as the title of the work and cited as possessive with respect to the title. 


IV. REQUIREMENTS ON MODIFIED WORKS 
All modified versions of documents covered by this license, including translations, antho- 


logies, compilations and partial documents, must meet the following requirements: 
e The modified version must be labeled as such. 


e The person making the modifications must be identified and the modifications 
dated. 


e Acknowledgement of the original author and publisher if applicable must be retai- 
ned according to normal academic citation practices. The location of the original 


unmodified document must be identified. 


e The original author’s (or authors’) name(s) may not be used to assert or imply 
endorsement of the resulting document without the original author’s (or authors’) 


permission. 
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V. GOOD-PRACTICE RECOMMENDATIONS 
In addition to the requirements of this license, it is requested from and strongly recom- 


mended of redistributors that: 


e If you are distributing Open Publication works on hardcopy or CD-ROM, you 
provide e-mail notification to the authors of your intent to redistribute at least 
thirty days before your manuscript or media freeze, to give the authors time to 
provide updated documents. This notification should describe modifications, if any, 


made to the document. 


e All substantive modifications (including deletions) be either clearly marked up in 
the document or else described in an attachment to the document. Finally, while it 
is not mandatory under this license, it is considered good form to offer a free copy 
of any hardcopy and CD-ROM expression of an Open Publication-licensed work to 
its author(s). 


VI. LICENSE OPTIONS 
Distribution of the work or derivative of the work for commercial purposes is prohibited, 


unless prior permission is obtained from the copyright holder in written form. 


Für Anmerkungen, Hinweise und Korrekturen bin ich immer dankbar. 
Sie können mich per Mail kontaktieren, oder besuchen Sie meine Homepage: 


abzeidler@gmx.de, bzw. 
https:/ /my.cloudme.com /#zeidlerweb 


Copyright (C) 9. März 2021 
by Andreas Bernhard Zeidler 
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